비지도 학습 (1) 썸네일형 리스트형 ChatGPT는 지도 학습과 강화 학습 ChatGPT는 지도 학습과 강화 학습을 활용해 GPT-3.5를 기반으로 세밀하게 조정되었다. 지도학습과 강화학습 모두 인간 트레이너들이 모델의 성능을 개선하기 위해 사용되었다. 지도학습의 경우, 인간 트레이너가 사용자와 ChatGPT 양쪽 모두를 연기하는 대화가 모델에 입력되었다. 강화 단계에서는 인간 트레이너들이 먼저 모델이 이전 대화에서 만든 응답들에 순위를 매겼다. 이 순위들은 TRPO(Trust Region Policy Optimization)의 계산 효율을 개선한 PPO(Proximal Policy Optimization)를 이용하여 보상 모델을 만들기 위해 사용되었다. 이 모델들은 마이크로소프트와 협업하여 마이크로소프트 애저 슈퍼컴퓨팅 인프라 상에서 훈련되었다.OpenAI 엔지니어들은 Cha.. 이전 1 다음