자기 개선형 강건 선호 최적화
Self-Improving Robust Preference Optimization
June 3, 2024
저자: Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar
cs.AI
초록
온라인 및 오프라인 RLHF(Reinforcement Learning from Human Feedback) 방법론인 PPO와 DPO는 인간의 선호도에 맞춰 AI를 정렬하는 데 매우 성공적이었습니다. 그러나 이러한 성공에도 불구하고, 기존 방법론들은 근본적인 문제를 안고 있습니다. 바로 최적의 해결책이 과제에 크게 의존적이며(즉, 분포 외(OOD) 과제에 대해 강건하지 않음) 이에 대한 대응이 필요하다는 점입니다. 본 연구에서는 이러한 문제를 해결하기 위해 Self-Improving Robust Preference Optimization(SRPO)을 제안합니다. SRPO는 과제의 변화에 완전히 강건하면서도 실용적이고 수학적으로 엄밀한 오프라인 RLHF 프레임워크입니다. SRPO의 핵심 아이디어는 인간의 선호도로부터 학습하는 문제를 자기 개선 과정으로 재구성하는 것입니다. 이는 자기 개선 정책과 생성 정책을 적대적 방식으로 공동 최적화하는 min-max 목적함수로 수학적으로 표현될 수 있습니다. 이 최적화 문제의 해결책은 학습 과제에 독립적이므로, 과제의 변화에 강건합니다. 또한, 이 목적함수는 비적대적 오프라인 손실 형태로 재표현될 수 있으며, 보상 모델이나 온라인 추론 없이도 표준 지도 최적화 기법을 사용해 대규모로 최적화할 수 있습니다. SRPO의 효과는 인간(GOLD) 완성본 대비 AI 승률(Win-Rate, WR)로 입증됩니다. 특히, OOD XSUM 데이터셋에서 평가했을 때, SRPO는 5번의 자기 수정 후 15%의 명확한 차이로 DPO를 능가하며, 90%의 WR을 달성했습니다.
English
Both online and offline RLHF methods such as PPO and DPO have been extremely
successful in aligning AI with human preferences. Despite their success, the
existing methods suffer from a fundamental problem that their optimal solution
is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks).
Here we address this challenge by proposing Self-Improving Robust Preference
Optimization SRPO, a practical and mathematically principled offline RLHF
framework that is completely robust to the changes in the task. The key idea of
SRPO is to cast the problem of learning from human preferences as a
self-improvement process, which can be mathematically expressed in terms of a
min-max objective that aims at joint optimization of self-improvement policy
and the generative policy in an adversarial fashion. The solution for this
optimization problem is independent of the training task and thus it is robust
to its changes. We then show that this objective can be re-expressed in the
form of a non-adversarial offline loss which can be optimized using standard
supervised optimization techniques at scale without any need for reward model
and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate
(WR) against human (GOLD) completions. In particular, when SRPO is evaluated on
the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of
15% after 5 self-revisions, achieving WR of 90%.Summary
AI-Generated Summary