Modelos de Lenguaje Meta-Recompensantes: Alineación Auto-Mejorante con LLM como Meta-Juez
Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
July 28, 2024
Autores: Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs) están superando rápidamente el conocimiento humano en muchos dominios. Mientras que tradicionalmente mejorar estos modelos depende de costosos datos humanos, recientes mecanismos de auto-recompensa (Yuan et al., 2024) han demostrado que los LLMs pueden mejorar al evaluar sus propias respuestas en lugar de depender de etiquetadores humanos. Sin embargo, los métodos existentes se han centrado principalmente en mejorar las respuestas del modelo en lugar de las capacidades de juicio, lo que resulta en una rápida saturación durante el entrenamiento iterativo. Para abordar este problema, presentamos un nuevo paso de Meta-Recompensa en el proceso de auto-mejora, donde el modelo evalúa sus propios juicios y utiliza esa retroalimentación para refinar sus habilidades de juicio. Sorprendentemente, este enfoque no supervisado mejora la capacidad del modelo para juzgar y seguir instrucciones, como se demuestra por una mejora en la tasa de éxito de Llama-3-8B-Instruct del 22.9% al 39.4% en AlpacaEval 2, y del 20.6% al 29.1% en Arena-Hard. Estos resultados sugieren fuertemente el potencial de modelos auto-mejorantes sin supervisión humana.
English
Large Language Models (LLMs) are rapidly surpassing human knowledge in many
domains. While improving these models traditionally relies on costly human
data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs
can improve by judging their own responses instead of relying on human
labelers. However, existing methods have primarily focused on improving model
responses rather than judgment capabilities, resulting in rapid saturation
during iterative training. To address this issue, we introduce a novel
Meta-Rewarding step to the self-improvement process, where the model judges its
own judgements and uses that feedback to refine its judgment skills.
Surprisingly, this unsupervised approach improves the model's ability to judge
{\em and} follow instructions, as demonstrated by a win rate improvement of
Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on
Arena-Hard. These results strongly suggest the potential for self-improving
models without human supervision.Summary
AI-Generated Summary