ChatPaper.aiChatPaper

Alignement direct des modèles de langage à partir de retours d'IA en temps réel

Direct Language Model Alignment from Online AI Feedback

February 7, 2024
Auteurs: Shangmin Guo, Biao Zhang, Tianlin Liu, Tianqi Liu, Misha Khalman, Felipe Llinares, Alexandre Rame, Thomas Mesnard, Yao Zhao, Bilal Piot, Johan Ferret, Mathieu Blondel
cs.AI

Résumé

Les méthodes d'alignement direct à partir des préférences (DAP), telles que DPO, ont récemment émergé comme des alternatives efficaces à l'apprentissage par renforcement à partir de retours humains (RLHF), ne nécessitant pas de modèle de récompense séparé. Cependant, les ensembles de données de préférences utilisés dans les méthodes DAP sont généralement collectés avant l'entraînement et jamais mis à jour, ce qui rend les retours purement hors ligne. De plus, les réponses dans ces ensembles de données sont souvent échantillonnées à partir d'un modèle de langage distinct de celui en cours d'alignement, et puisque le modèle évolue au cours de l'entraînement, la phase d'alignement est inévitablement hors politique. Dans cette étude, nous postulons que les retours en ligne sont essentiels et améliorent les méthodes DAP. Notre méthode, les retours d'IA en ligne (OAIF), utilise un LLM comme annotateur : à chaque itération d'entraînement, nous échantillonnons deux réponses du modèle actuel et demandons à l'annotateur LLM de choisir celle qui est préférée, fournissant ainsi des retours en ligne. Malgré sa simplicité, nous démontrons via une évaluation humaine sur plusieurs tâches que OAIF surpasse à la fois les méthodes DAP hors ligne et RLHF. Nous montrons en outre que les retours utilisés dans OAIF sont facilement contrôlables, via des instructions données à l'annotateur LLM.
English
Direct alignment from preferences (DAP) methods, such as DPO, have recently emerged as efficient alternatives to reinforcement learning from human feedback (RLHF), that do not require a separate reward model. However, the preference datasets used in DAP methods are usually collected ahead of training and never updated, thus the feedback is purely offline. Moreover, responses in these datasets are often sampled from a language model distinct from the one being aligned, and since the model evolves over training, the alignment phase is inevitably off-policy. In this study, we posit that online feedback is key and improves DAP methods. Our method, online AI feedback (OAIF), uses an LLM as annotator: on each training iteration, we sample two responses from the current model and prompt the LLM annotator to choose which one is preferred, thus providing online feedback. Despite its simplicity, we demonstrate via human evaluation in several tasks that OAIF outperforms both offline DAP and RLHF methods. We further show that the feedback leveraged in OAIF is easily controllable, via instruction prompts to the LLM annotator.
PDF323December 15, 2024