Lo Sblocco dei Modelli Linguistici di Base: Ripensare l'Allineamento attraverso l'Apprendimento in Contesto
The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning
December 4, 2023
Autori: Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi
cs.AI
Abstract
Il processo di allineamento dei grandi modelli linguistici (LLM) coinvolge tipicamente l'apprendimento di istruzioni attraverso il fine-tuning supervisionato (SFT) e la regolazione delle preferenze tramite l'apprendimento per rinforzo basato sul feedback umano (RLHF). Uno studio recente, LIMA (Zhou et al. 2023), mostra che utilizzando appena 1.000 esempi per l'SFT è possibile ottenere comunque prestazioni significative di allineamento, suggerendo che l'effetto della regolazione dell'allineamento potrebbe essere "superficiale". Ciò solleva interrogativi su come esattamente la regolazione dell'allineamento trasformi un LLM di base.
Analizziamo l'effetto della regolazione dell'allineamento esaminando lo spostamento della distribuzione dei token tra gli LLM di base e le loro controparti allineate. I nostri risultati rivelano che gli LLM di base e le loro versioni allineate si comportano in modo quasi identico nella decodifica sulla maggior parte delle posizioni dei token. La maggior parte degli spostamenti di distribuzione si verifica con token stilistici. Queste evidenze dirette supportano fortemente l'Ipotesi di Allineamento Superficiale suggerita da LIMA.
Sulla base di questi risultati, ripensiamo all'allineamento degli LLM ponendo la domanda di ricerca: quanto efficacemente possiamo allineare gli LLM di base senza SFT o RLHF? Per affrontare questo problema, introduciamo un metodo semplice e senza regolazione, URIAL. URIAL raggiunge un allineamento efficace esclusivamente attraverso l'apprendimento contestuale (ICL) con LLM di base, richiedendo appena tre esempi stilistici costanti e un prompt di sistema. Eseguiamo una valutazione granulare e interpretabile su un insieme diversificato di esempi, denominato JUST-EVAL-INSTRUCT. I risultati dimostrano che gli LLM di base con URIAL possono eguagliare o addirittura superare le prestazioni degli LLM allineati con SFT o SFT+RLHF. Mostriamo che il divario tra i metodi di allineamento senza regolazione e quelli basati sulla regolazione può essere significativamente ridotto attraverso prompt strategici e ICL. Le nostre scoperte sulla natura superficiale della regolazione dell'allineamento e i risultati con URIAL suggeriscono che un'analisi più approfondita e una comprensione teorica dell'allineamento sono cruciali per la futura ricerca sugli LLM.
English
The alignment tuning process of large language models (LLMs) typically
involves instruction learning through supervised fine-tuning (SFT) and
preference tuning via reinforcement learning from human feedback (RLHF). A
recent study, LIMA (Zhou et al. 2023), shows that using merely 1K examples for
SFT can achieve significant alignment performance as well, suggesting that the
effect of alignment tuning might be "superficial." This raises questions about
how exactly the alignment tuning transforms a base LLM.
We analyze the effect of alignment tuning by examining the token distribution
shift between base LLMs and their aligned counterpart. Our findings reveal that
base LLMs and their alignment-tuned versions perform nearly identically in
decoding on the majority of token positions. Most distribution shifts occur
with stylistic tokens. These direct evidence strongly supports the Superficial
Alignment Hypothesis suggested by LIMA.
Based on these findings, we rethink the alignment of LLMs by posing the
research question: how effectively can we align base LLMs without SFT or RLHF?
To address this, we introduce a simple, tuning-free alignment method, URIAL.
URIAL achieves effective alignment purely through in-context learning (ICL)
with base LLMs, requiring as few as three constant stylistic examples and a
system prompt. We conduct a fine-grained and interpretable evaluation on a
diverse set of examples, named JUST-EVAL-INSTRUCT. Results demonstrate that
base LLMs with URIAL can match or even surpass the performance of LLMs aligned
with SFT or SFT+RLHF. We show that the gap between tuning-free and tuning-based
alignment methods can be significantly reduced through strategic prompting and
ICL. Our findings on the superficial nature of alignment tuning and results
with URIAL suggest that deeper analysis and theoretical understanding of
alignment is crucial to future LLM research.