Meta-Beloning voor Taalmodellen: Zelfverbeterende Afstemming met LLM-als-Meta-Rechter
Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
July 28, 2024
Auteurs: Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) overtreffen snel menselijke kennis in veel domeinen. Hoewel het verbeteren van deze modellen traditioneel afhankelijk is van kostbare menselijke data, hebben recente zelfbeloningsmechanismen (Yuan et al., 2024) aangetoond dat LLMs zich kunnen verbeteren door hun eigen reacties te beoordelen in plaats van te vertrouwen op menselijke labelers. Bestaande methoden hebben zich echter voornamelijk gericht op het verbeteren van modelreacties in plaats van beoordelingsvaardigheden, wat resulteert in een snelle verzadiging tijdens iteratieve training. Om dit probleem aan te pakken, introduceren we een nieuwe Meta-Beloning stap in het zelfverbeteringsproces, waarbij het model zijn eigen beoordelingen beoordeelt en die feedback gebruikt om zijn beoordelingsvaardigheden te verfijnen. Verrassend genoeg verbetert deze onbewaakte aanpak het vermogen van het model om instructies te beoordelen én te volgen, zoals blijkt uit een verbetering van de winratio van Llama-3-8B-Instruct van 22,9% naar 39,4% op AlpacaEval 2, en van 20,6% naar 29,1% op Arena-Hard. Deze resultaten suggereren sterk dat er potentieel is voor zelfverbeterende modellen zonder menselijk toezicht.
English
Large Language Models (LLMs) are rapidly surpassing human knowledge in many
domains. While improving these models traditionally relies on costly human
data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs
can improve by judging their own responses instead of relying on human
labelers. However, existing methods have primarily focused on improving model
responses rather than judgment capabilities, resulting in rapid saturation
during iterative training. To address this issue, we introduce a novel
Meta-Rewarding step to the self-improvement process, where the model judges its
own judgements and uses that feedback to refine its judgment skills.
Surprisingly, this unsupervised approach improves the model's ability to judge
{\em and} follow instructions, as demonstrated by a win rate improvement of
Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on
Arena-Hard. These results strongly suggest the potential for self-improving
models without human supervision.