Aprende tu modelo de referencia para una alineación verdaderamente efectiva
Learn Your Reference Model for Real Good Alignment
April 15, 2024
Autores: Alexey Gorbatovski, Boris Shaposhnikov, Alexey Malakhov, Nikita Surnachev, Yaroslav Aksenov, Ian Maksimov, Nikita Balagansky, Daniil Gavrilov
cs.AI
Resumen
La complejidad del problema de alineación surge del hecho de que los métodos existentes son inestables. Los investigadores inventan continuamente diversos trucos para abordar esta limitación. Por ejemplo, en la técnica fundamental de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) para la alineación de modelos de lenguaje, además de la maximización de la recompensa, se minimiza la divergencia de Kullback-Leibler entre la política entrenable y la política SFT. Esta adición evita que el modelo se sobreajuste al Modelo de Recompensa (RM) y genere textos que estén fuera del dominio del RM. El método de Optimización Directa de Preferencias (DPO) reformula la tarea de optimización de RLHF y elimina el Modelo de Recompensa, manteniendo tácitamente el requisito de que la política esté cerca de la política SFT. En nuestro artículo, argumentamos que esta limitación implícita en el método DPO conduce a resultados subóptimos. Proponemos un nuevo método llamado Optimización Directa de Preferencias con Región de Confianza (TR-DPO), que actualiza la política de referencia durante el entrenamiento. Con esta actualización directa, demostramos la efectividad de TR-DPO frente a DPO en los conjuntos de datos Anthropic HH y TLDR. Mostramos que TR-DPO supera a DPO hasta en un 19%, medido mediante evaluación automática con GPT-4. El nuevo enfoque de alineación que proponemos nos permite mejorar la calidad de los modelos en varios parámetros simultáneamente, como coherencia, corrección, nivel de detalle, utilidad y ausencia de daño.
English
The complexity of the alignment problem stems from the fact that existing
methods are unstable. Researchers continuously invent various tricks to address
this shortcoming. For instance, in the fundamental Reinforcement Learning From
Human Feedback (RLHF) technique of Language Model alignment, in addition to
reward maximization, the Kullback-Leibler divergence between the trainable
policy and the SFT policy is minimized. This addition prevents the model from
being overfitted to the Reward Model (RM) and generating texts that are
out-of-domain for the RM. The Direct Preference Optimization (DPO) method
reformulates the optimization task of RLHF and eliminates the Reward Model
while tacitly maintaining the requirement for the policy to be close to the SFT
policy. In our paper, we argue that this implicit limitation in the DPO method
leads to sub-optimal results. We propose a new method called Trust Region DPO
(TR-DPO), which updates the reference policy during training. With such a
straightforward update, we demonstrate the effectiveness of TR-DPO against DPO
on the Anthropic HH and TLDR datasets. We show that TR-DPO outperforms DPO by
up to 19%, measured by automatic evaluation with GPT-4. The new alignment
approach that we propose allows us to improve the quality of models across
several parameters at once, such as coherence, correctness, level of detail,
helpfulness, and harmlessness.Summary
AI-Generated Summary