ChatPaper.aiChatPaper

Meta-Beloning voor Taalmodellen: Zelfverbeterende Afstemming met LLM-als-Meta-Rechter

Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

July 28, 2024
Auteurs: Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
cs.AI

Samenvatting

Grote Taalmodellen (LLMs) overtreffen snel menselijke kennis in veel domeinen. Hoewel het verbeteren van deze modellen traditioneel afhankelijk is van kostbare menselijke data, hebben recente zelfbeloningsmechanismen (Yuan et al., 2024) aangetoond dat LLMs zich kunnen verbeteren door hun eigen reacties te beoordelen in plaats van te vertrouwen op menselijke labelers. Bestaande methoden hebben zich echter voornamelijk gericht op het verbeteren van modelreacties in plaats van beoordelingsvaardigheden, wat resulteert in een snelle verzadiging tijdens iteratieve training. Om dit probleem aan te pakken, introduceren we een nieuwe Meta-Beloning stap in het zelfverbeteringsproces, waarbij het model zijn eigen beoordelingen beoordeelt en die feedback gebruikt om zijn beoordelingsvaardigheden te verfijnen. Verrassend genoeg verbetert deze onbewaakte aanpak het vermogen van het model om instructies te beoordelen én te volgen, zoals blijkt uit een verbetering van de winratio van Llama-3-8B-Instruct van 22,9% naar 39,4% op AlpacaEval 2, en van 20,6% naar 29,1% op Arena-Hard. Deze resultaten suggereren sterk dat er potentieel is voor zelfverbeterende modellen zonder menselijk toezicht.
English
Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs can improve by judging their own responses instead of relying on human labelers. However, existing methods have primarily focused on improving model responses rather than judgment capabilities, resulting in rapid saturation during iterative training. To address this issue, we introduce a novel Meta-Rewarding step to the self-improvement process, where the model judges its own judgements and uses that feedback to refine its judgment skills. Surprisingly, this unsupervised approach improves the model's ability to judge {\em and} follow instructions, as demonstrated by a win rate improvement of Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on Arena-Hard. These results strongly suggest the potential for self-improving models without human supervision.
PDF212February 8, 2026