Alineación Directa de Modelos de Lenguaje a partir de Retroalimentación de IA en Tiempo Real

Resumen

Los métodos de alineación directa a partir de preferencias (DAP, por sus siglas en inglés), como DPO, han surgido recientemente como alternativas eficientes al aprendizaje por refuerzo con retroalimentación humana (RLHF), ya que no requieren un modelo de recompensa separado. Sin embargo, los conjuntos de datos de preferencias utilizados en los métodos DAP generalmente se recopilan antes del entrenamiento y nunca se actualizan, por lo que la retroalimentación es puramente offline. Además, las respuestas en estos conjuntos de datos a menudo se muestrean a partir de un modelo de lenguaje distinto al que se está alineando, y dado que el modelo evoluciona durante el entrenamiento, la fase de alineación es inevitablemente off-policy. En este estudio, postulamos que la retroalimentación en línea es clave y mejora los métodos DAP. Nuestro método, retroalimentación de IA en línea (OAIF, por sus siglas en inglés), utiliza un modelo de lenguaje grande (LLM) como anotador: en cada iteración de entrenamiento, muestreamos dos respuestas del modelo actual y solicitamos al LLM anotador que elija cuál es preferida, proporcionando así retroalimentación en línea. A pesar de su simplicidad, demostramos mediante evaluación humana en varias tareas que OAIF supera tanto a los métodos DAP offline como a RLHF. Además, mostramos que la retroalimentación utilizada en OAIF es fácilmente controlable mediante instrucciones dirigidas al LLM anotador.

English

Direct alignment from preferences (DAP) methods, such as DPO, have recently emerged as efficient alternatives to reinforcement learning from human feedback (RLHF), that do not require a separate reward model. However, the preference datasets used in DAP methods are usually collected ahead of training and never updated, thus the feedback is purely offline. Moreover, responses in these datasets are often sampled from a language model distinct from the one being aligned, and since the model evolves over training, the alignment phase is inevitably off-policy. In this study, we posit that online feedback is key and improves DAP methods. Our method, online AI feedback (OAIF), uses an LLM as annotator: on each training iteration, we sample two responses from the current model and prompt the LLM annotator to choose which one is preferred, thus providing online feedback. Despite its simplicity, we demonstrate via human evaluation in several tasks that OAIF outperforms both offline DAP and RLHF methods. We further show that the feedback leveraged in OAIF is easily controllable, via instruction prompts to the LLM annotator.

Alineación Directa de Modelos de Lenguaje a partir de Retroalimentación de IA en Tiempo Real

Direct Language Model Alignment from Online AI Feedback

Resumen

Support