Modelos de Linguagem Meta-Recompensa: Alinhamento com Autoaperfeiçoamento usando LLM como Meta-Juíz
Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
July 28, 2024
Autores: Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) estão rapidamente ultrapassando o conhecimento humano em muitos domínios. Enquanto a melhoria desses modelos tradicionalmente depende de dados humanos custosos, mecanismos recentes de auto-recompensa (Yuan et al., 2024) demonstraram que os LLMs podem melhorar ao avaliar suas próprias respostas em vez de depender de rotuladores humanos. No entanto, os métodos existentes têm se concentrado principalmente na melhoria das respostas do modelo em vez das capacidades de julgamento, resultando em rápida saturação durante o treinamento iterativo. Para abordar esse problema, introduzimos uma etapa de Meta-Recompensa no processo de autoaperfeiçoamento, onde o modelo avalia seus próprios julgamentos e utiliza esse feedback para aprimorar suas habilidades de julgamento. Surpreendentemente, essa abordagem não supervisionada melhora a capacidade do modelo de julgar e seguir instruções, conforme demonstrado por uma melhoria na taxa de vitória do Llama-3-8B-Instruct de 22,9% para 39,4% no AlpacaEval 2, e de 20,6% para 29,1% no Arena-Hard. Esses resultados sugerem fortemente o potencial de modelos autoaperfeiçoantes sem supervisão humana.
English
Large Language Models (LLMs) are rapidly surpassing human knowledge in many
domains. While improving these models traditionally relies on costly human
data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs
can improve by judging their own responses instead of relying on human
labelers. However, existing methods have primarily focused on improving model
responses rather than judgment capabilities, resulting in rapid saturation
during iterative training. To address this issue, we introduce a novel
Meta-Rewarding step to the self-improvement process, where the model judges its
own judgements and uses that feedback to refine its judgment skills.
Surprisingly, this unsupervised approach improves the model's ability to judge
{\em and} follow instructions, as demonstrated by a win rate improvement of
Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on
Arena-Hard. These results strongly suggest the potential for self-improving
models without human supervision.Summary
AI-Generated Summary