인간 피드백을 통한 강화 학습의 개방형 문제점과 근본적 한계
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback
July 27, 2023
저자: Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Raphaël Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Bıyık, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell
cs.AI
초록
인간 피드백을 통한 강화 학습(RLHF)은 AI 시스템이 인간의 목표와 일치하도록 훈련시키는 기술입니다. RLHF는 최첨단 대규모 언어 모델(LLM)을 미세 조정하는 데 사용되는 핵심 방법으로 부상했습니다. 이러한 인기에도 불구하고, RLHF의 결점을 체계적으로 분석한 공개된 연구는 상대적으로 적습니다. 본 논문에서 우리는 (1) RLHF 및 관련 방법의 공개된 문제와 근본적인 한계를 조사하고, (2) RLHF를 이해하고 개선하며 보완하기 위한 실용적인 기술을 개관하며, (3) RLHF 시스템에 대한 사회적 감독을 강화하기 위한 감사 및 공개 기준을 제안합니다. 우리의 연구는 RLHF의 한계를 강조하며, 더 안전한 AI 시스템 개발을 위한 다각적인 접근의 중요성을 부각시킵니다.
English
Reinforcement learning from human feedback (RLHF) is a technique for training
AI systems to align with human goals. RLHF has emerged as the central method
used to finetune state-of-the-art large language models (LLMs). Despite this
popularity, there has been relatively little public work systematizing its
flaws. In this paper, we (1) survey open problems and fundamental limitations
of RLHF and related methods; (2) overview techniques to understand, improve,
and complement RLHF in practice; and (3) propose auditing and disclosure
standards to improve societal oversight of RLHF systems. Our work emphasizes
the limitations of RLHF and highlights the importance of a multi-faceted
approach to the development of safer AI systems.