ChatPaper.aiChatPaper

Comprendre l'écart de performance entre les algorithmes d'alignement en ligne et hors ligne

Understanding the performance gap between online and offline alignment algorithms

May 14, 2024
Auteurs: Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney
cs.AI

Résumé

L'apprentissage par renforcement à partir de retours humains (RLHF) constitue le cadre canonique pour l'alignement des grands modèles de langage. Cependant, la popularité croissante des algorithmes d'alignement hors ligne remet en question la nécessité de l'échantillonnage en ligne dans le RLHF. Dans le contexte de la sur-optimisation des récompenses, nous commençons par une série d'expériences initiales qui démontrent clairement l'avantage des méthodes en ligne par rapport aux méthodes hors ligne. Cela nous incite à investiguer les causes de cette divergence de performance à travers une série d'ablation expérimentales soigneusement conçues. Nous montrons empiriquement que des hypothèses telles que la couverture des données hors ligne et la qualité des données ne peuvent à elles seules expliquer de manière convaincante la différence de performance. Nous constatons également que si les algorithmes hors ligne entraînent les politiques à exceller dans la classification par paires, elles sont moins performantes en génération ; tandis que les politiques entraînées par les algorithmes en ligne excellent en génération mais sont moins performantes en classification par paires. Cela suggère une interaction unique entre les capacités discriminatives et génératives, fortement influencée par le processus d'échantillonnage. Enfin, nous observons que la divergence de performance persiste pour les fonctions de perte contrastives et non contrastives, et ne semble pas être résolue simplement par la mise à l'échelle des réseaux de politiques. Ensemble, notre étude met en lumière le rôle crucial de l'échantillonnage en ligne dans l'alignement de l'IA et soulève certains défis fondamentaux des algorithmes d'alignement hors ligne.
English
Reinforcement learning from human feedback (RLHF) is the canonical framework for large language model alignment. However, rising popularity in offline alignment algorithms challenge the need for on-policy sampling in RLHF. Within the context of reward over-optimization, we start with an opening set of experiments that demonstrate the clear advantage of online methods over offline methods. This prompts us to investigate the causes to the performance discrepancy through a series of carefully designed experimental ablations. We show empirically that hypotheses such as offline data coverage and data quality by itself cannot convincingly explain the performance difference. We also find that while offline algorithms train policy to become good at pairwise classification, it is worse at generations; in the meantime the policies trained by online algorithms are good at generations while worse at pairwise classification. This hints at a unique interplay between discriminative and generative capabilities, which is greatly impacted by the sampling process. Lastly, we observe that the performance discrepancy persists for both contrastive and non-contrastive loss functions, and appears not to be addressed by simply scaling up policy networks. Taken together, our study sheds light on the pivotal role of on-policy sampling in AI alignment, and hints at certain fundamental challenges of offline alignment algorithms.

Summary

AI-Generated Summary

PDF200December 15, 2024