Modelos de Linguagem Meta-Recompensa: Alinhamento com Autoaperfeiçoamento usando LLM como Meta-Juíz

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) estão rapidamente ultrapassando o conhecimento humano em muitos domínios. Enquanto a melhoria desses modelos tradicionalmente depende de dados humanos custosos, mecanismos recentes de auto-recompensa (Yuan et al., 2024) demonstraram que os LLMs podem melhorar ao avaliar suas próprias respostas em vez de depender de rotuladores humanos. No entanto, os métodos existentes têm se concentrado principalmente na melhoria das respostas do modelo em vez das capacidades de julgamento, resultando em rápida saturação durante o treinamento iterativo. Para abordar esse problema, introduzimos uma etapa de Meta-Recompensa no processo de autoaperfeiçoamento, onde o modelo avalia seus próprios julgamentos e utiliza esse feedback para aprimorar suas habilidades de julgamento. Surpreendentemente, essa abordagem não supervisionada melhora a capacidade do modelo de julgar e seguir instruções, conforme demonstrado por uma melhoria na taxa de vitória do Llama-3-8B-Instruct de 22,9% para 39,4% no AlpacaEval 2, e de 20,6% para 29,1% no Arena-Hard. Esses resultados sugerem fortemente o potencial de modelos autoaperfeiçoantes sem supervisão humana.

English

Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of relying on human labelers. However, existing methods have primarily focused on improving model responses rather than judgment capabilities, resulting in rapid saturation during iterative training. To address this issue, we introduce a novel Meta-Rewarding step to the self-improvement process, where the model judges its own judgements and uses that feedback to refine its judgment skills. Surprisingly, this unsupervised approach improves the model's ability to judge {\em and} follow instructions, as demonstrated by a win rate improvement of Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on Arena-Hard. These results strongly suggest the potential for self-improving models without human supervision.

Modelos de Linguagem Meta-Recompensa: Alinhamento com Autoaperfeiçoamento usando LLM como Meta-Juíz

Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

Resumo

Summary

Support

Support