Meta-Ricompensare i Modelli Linguistici: Allineamento Auto-Migliorante con LLM come Meta-Giudice
Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge
July 28, 2024
Autori: Tianhao Wu, Weizhe Yuan, Olga Golovneva, Jing Xu, Yuandong Tian, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) stanno rapidamente superando la conoscenza umana in molti ambiti. Sebbene il miglioramento di questi modelli tradizionalmente si basi su dati umani costosi, recenti meccanismi di auto-ricompensa (Yuan et al., 2024) hanno dimostrato che gli LLM possono migliorare valutando le proprie risposte invece di affidarsi a etichettatori umani. Tuttavia, i metodi esistenti si sono concentrati principalmente sul miglioramento delle risposte del modello piuttosto che sulle capacità di giudizio, portando a una rapida saturazione durante l'addestramento iterativo. Per affrontare questo problema, introduciamo un nuovo passo di Meta-Ricompensa nel processo di auto-miglioramento, in cui il modello valuta i propri giudizi e utilizza tale feedback per affinare le proprie capacità di giudizio. Sorprendentemente, questo approccio non supervisionato migliora la capacità del modello sia di giudicare che di seguire le istruzioni, come dimostrato da un aumento del tasso di vittoria di Llama-3-8B-Instruct dal 22,9% al 39,4% su AlpacaEval 2 e dal 20,6% al 29,1% su Arena-Hard. Questi risultati suggeriscono fortemente il potenziale per modelli auto-miglioranti senza supervisione umana.
English
Large Language Models (LLMs) are rapidly surpassing human knowledge in many
domains. While improving these models traditionally relies on costly human
data, recent self-rewarding mechanisms (Yuan et al., 2024) have shown that LLMs
can improve by judging their own responses instead of relying on human
labelers. However, existing methods have primarily focused on improving model
responses rather than judgment capabilities, resulting in rapid saturation
during iterative training. To address this issue, we introduce a novel
Meta-Rewarding step to the self-improvement process, where the model judges its
own judgements and uses that feedback to refine its judgment skills.
Surprisingly, this unsupervised approach improves the model's ability to judge
{\em and} follow instructions, as demonstrated by a win rate improvement of
Llama-3-8B-Instruct from 22.9% to 39.4% on AlpacaEval 2, and 20.6% to 29.1% on
Arena-Hard. These results strongly suggest the potential for self-improving
models without human supervision.