ChatPaper.aiChatPaper

Comprendiendo la brecha de rendimiento entre los algoritmos de alineación en línea y fuera de línea

Understanding the performance gap between online and offline alignment algorithms

May 14, 2024
Autores: Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney
cs.AI

Resumen

El aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) es el marco canónico para la alineación de modelos de lenguaje a gran escala. Sin embargo, el creciente interés en los algoritmos de alineación fuera de línea cuestiona la necesidad del muestreo en línea en RLHF. Dentro del contexto de la sobreoptimización de recompensas, comenzamos con un conjunto inicial de experimentos que demuestran la clara ventaja de los métodos en línea sobre los métodos fuera de línea. Esto nos lleva a investigar las causas de la discrepancia en el rendimiento a través de una serie de ablaciones experimentales cuidadosamente diseñadas. Demostramos empíricamente que hipótesis como la cobertura de datos fuera de línea y la calidad de los datos por sí solas no pueden explicar de manera convincente la diferencia en el rendimiento. También encontramos que, aunque los algoritmos fuera de línea entrenan políticas para ser buenas en clasificación por pares, son peores en generación; mientras que las políticas entrenadas por algoritmos en línea son buenas en generación pero peores en clasificación por pares. Esto sugiere una interacción única entre las capacidades discriminativas y generativas, que se ve fuertemente influenciada por el proceso de muestreo. Por último, observamos que la discrepancia en el rendimiento persiste tanto para funciones de pérdida contrastivas como no contrastivas, y parece no resolverse simplemente escalando las redes de políticas. En conjunto, nuestro estudio arroja luz sobre el papel fundamental del muestreo en línea en la alineación de IA y sugiere ciertos desafíos fundamentales de los algoritmos de alineación fuera de línea.
English
Reinforcement learning from human feedback (RLHF) is the canonical framework for large language model alignment. However, rising popularity in offline alignment algorithms challenge the need for on-policy sampling in RLHF. Within the context of reward over-optimization, we start with an opening set of experiments that demonstrate the clear advantage of online methods over offline methods. This prompts us to investigate the causes to the performance discrepancy through a series of carefully designed experimental ablations. We show empirically that hypotheses such as offline data coverage and data quality by itself cannot convincingly explain the performance difference. We also find that while offline algorithms train policy to become good at pairwise classification, it is worse at generations; in the meantime the policies trained by online algorithms are good at generations while worse at pairwise classification. This hints at a unique interplay between discriminative and generative capabilities, which is greatly impacted by the sampling process. Lastly, we observe that the performance discrepancy persists for both contrastive and non-contrastive loss functions, and appears not to be addressed by simply scaling up policy networks. Taken together, our study sheds light on the pivotal role of on-policy sampling in AI alignment, and hints at certain fundamental challenges of offline alignment algorithms.

Summary

AI-Generated Summary

PDF200December 15, 2024