BPO : Optimisation de l'apprentissage des préférences en ligne en respectant la proximité comportementale des LLM
BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM
June 18, 2024
Auteurs: Wenda Xu, Jiachen Li, William Yang Wang, Lei Li
cs.AI
Résumé
L'alignement direct à partir des préférences (Direct Alignment from Preferences, DAP) s'est imposé comme un paradigme prometteur pour aligner les grands modèles de langage (LLMs) sur les desiderata humains à partir de jeux de données de préférences pré-collectées et hors ligne. Bien que des études récentes indiquent que les méthodes DAP hors ligne existantes peuvent directement bénéficier d'échantillons d'entraînement en ligne, nous soulignons la nécessité de développer des algorithmes DAP en ligne spécifiques pour exploiter pleinement le potentiel de l'entraînement en ligne. Plus précisément, nous identifions que le LLM appris doit respecter la proximité du LLM de comportement, qui collecte les échantillons d'entraînement. À cette fin, nous proposons l'Optimisation des Préférences en ligne à proximité du LLM de Comportement (BPO), en mettant l'accent sur l'importance de construire une région de confiance appropriée pour l'alignement des LLMs.
Nous menons des expériences approfondies pour valider l'efficacité et l'applicabilité de notre approche en l'intégrant à diverses méthodes DAP, ce qui entraîne des améliorations significatives des performances sur un large éventail de tâches avec la même quantité de données de préférences. Même en introduisant une seule phase supplémentaire de collecte de données, notre BPO en ligne améliore son baseline DAP hors ligne de 72,0 % à 80,2 % sur TL;DR et de 82,2 % à 89,1 % sur Anthropic Helpfulness en termes de taux de victoire contre un texte de référence humain.
English
Direct alignment from preferences (DAP) has emerged as a promising paradigm
for aligning large language models (LLMs) to human desiderata from
pre-collected, offline preference datasets. While recent studies indicate that
existing offline DAP methods can directly benefit from online training samples,
we highlight the need to develop specific online DAP algorithms to fully
harness the power of online training. Specifically, we identify that the
learned LLM should adhere to the proximity of the behavior LLM, which collects
the training samples. To this end, we propose online Preference Optimization in
proximity to the Behavior LLM (BPO), emphasizing the importance of constructing
a proper trust region for LLM alignment.
We conduct extensive experiments to validate the effectiveness and
applicability of our approach by integrating it with various DAP methods,
resulting in significant performance improvements across a wide range of tasks
when training with the same amount of preference data. Even when only
introducing one additional data collection phase, our online BPO improves its
offline DAP baseline from 72.0% to 80.2% on TL;DR and from 82.2% to 89.1% on
Anthropic Helpfulness in terms of win rate against human reference text.Summary
AI-Generated Summary