Alineación Directa de Modelos de Lenguaje a partir de Retroalimentación de IA en Tiempo Real
Direct Language Model Alignment from Online AI Feedback
February 7, 2024
Autores: Shangmin Guo, Biao Zhang, Tianlin Liu, Tianqi Liu, Misha Khalman, Felipe Llinares, Alexandre Rame, Thomas Mesnard, Yao Zhao, Bilal Piot, Johan Ferret, Mathieu Blondel
cs.AI
Resumen
Los métodos de alineación directa a partir de preferencias (DAP, por sus siglas en inglés), como DPO, han surgido recientemente como alternativas eficientes al aprendizaje por refuerzo con retroalimentación humana (RLHF), ya que no requieren un modelo de recompensa separado. Sin embargo, los conjuntos de datos de preferencias utilizados en los métodos DAP generalmente se recopilan antes del entrenamiento y nunca se actualizan, por lo que la retroalimentación es puramente offline. Además, las respuestas en estos conjuntos de datos a menudo se muestrean a partir de un modelo de lenguaje distinto al que se está alineando, y dado que el modelo evoluciona durante el entrenamiento, la fase de alineación es inevitablemente off-policy. En este estudio, postulamos que la retroalimentación en línea es clave y mejora los métodos DAP. Nuestro método, retroalimentación de IA en línea (OAIF, por sus siglas en inglés), utiliza un modelo de lenguaje grande (LLM) como anotador: en cada iteración de entrenamiento, muestreamos dos respuestas del modelo actual y solicitamos al LLM anotador que elija cuál es preferida, proporcionando así retroalimentación en línea. A pesar de su simplicidad, demostramos mediante evaluación humana en varias tareas que OAIF supera tanto a los métodos DAP offline como a RLHF. Además, mostramos que la retroalimentación utilizada en OAIF es fácilmente controlable mediante instrucciones dirigidas al LLM anotador.
English
Direct alignment from preferences (DAP) methods, such as DPO, have recently
emerged as efficient alternatives to reinforcement learning from human feedback
(RLHF), that do not require a separate reward model. However, the preference
datasets used in DAP methods are usually collected ahead of training and never
updated, thus the feedback is purely offline. Moreover, responses in these
datasets are often sampled from a language model distinct from the one being
aligned, and since the model evolves over training, the alignment phase is
inevitably off-policy. In this study, we posit that online feedback is key and
improves DAP methods. Our method, online AI feedback (OAIF), uses an LLM as
annotator: on each training iteration, we sample two responses from the current
model and prompt the LLM annotator to choose which one is preferred, thus
providing online feedback. Despite its simplicity, we demonstrate via human
evaluation in several tasks that OAIF outperforms both offline DAP and RLHF
methods. We further show that the feedback leveraged in OAIF is easily
controllable, via instruction prompts to the LLM annotator.