De Ontgrendelingsspreuk op Basis-LLM's: Heroverweging van Afstemming via In-Context Leren
The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning
December 4, 2023
Auteurs: Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi
cs.AI
Samenvatting
Het afstemmingsproces van grote taalmodellen (LLMs) omvat doorgaans instructie-aanleren via supervised fine-tuning (SFT) en voorkeursafstemming via reinforcement learning from human feedback (RLHF). Een recente studie, LIMA (Zhou et al. 2023), toont aan dat het gebruik van slechts 1K voorbeelden voor SFT ook een aanzienlijke afstemmingsprestatie kan bereiken, wat suggereert dat het effect van afstemming mogelijk "oppervlakkig" is. Dit roept vragen op over hoe precies de afstemming een basis-LLM transformeert.
Wij analyseren het effect van afstemming door de verschuiving in tokenverdeling tussen basis-LLMs en hun afgestemde tegenhangers te onderzoeken. Onze bevindingen laten zien dat basis-LLMs en hun afgestemde versies vrijwel identiek presteren bij het decoderen van de meeste tokenposities. De meeste verschuivingen in verdeling treden op bij stijltokens. Dit directe bewijs ondersteunt sterk de Superficial Alignment Hypothesis die door LIMA wordt gesuggereerd.
Op basis van deze bevindingen heroverwegen we de afstemming van LLMs door de onderzoeksvraag te stellen: hoe effectief kunnen we basis-LLMs afstemmen zonder SFT of RLHF? Om dit aan te pakken, introduceren we een eenvoudige, afstemmingsvrije methode, URIAL. URIAL bereikt effectieve afstemming puur door in-context learning (ICL) met basis-LLMs, waarbij slechts drie constante stijlvoorbeelden en een systeemprompt nodig zijn. We voeren een fijnmazige en interpreteerbare evaluatie uit op een diverse set voorbeelden, genaamd JUST-EVAL-INSTRUCT. De resultaten tonen aan dat basis-LLMs met URIAL de prestaties van LLMs die zijn afgestemd met SFT of SFT+RLHF kunnen evenaren of zelfs overtreffen. We laten zien dat het verschil tussen afstemmingsvrije en afstemmingsgebaseerde methoden aanzienlijk kan worden verkleind door strategische prompting en ICL. Onze bevindingen over de oppervlakkige aard van afstemming en de resultaten met URIAL suggereren dat een diepere analyse en theoretisch begrip van afstemming cruciaal is voor toekomstig LLM-onderzoek.
English
The alignment tuning process of large language models (LLMs) typically
involves instruction learning through supervised fine-tuning (SFT) and
preference tuning via reinforcement learning from human feedback (RLHF). A
recent study, LIMA (Zhou et al. 2023), shows that using merely 1K examples for
SFT can achieve significant alignment performance as well, suggesting that the
effect of alignment tuning might be "superficial." This raises questions about
how exactly the alignment tuning transforms a base LLM.
We analyze the effect of alignment tuning by examining the token distribution
shift between base LLMs and their aligned counterpart. Our findings reveal that
base LLMs and their alignment-tuned versions perform nearly identically in
decoding on the majority of token positions. Most distribution shifts occur
with stylistic tokens. These direct evidence strongly supports the Superficial
Alignment Hypothesis suggested by LIMA.
Based on these findings, we rethink the alignment of LLMs by posing the
research question: how effectively can we align base LLMs without SFT or RLHF?
To address this, we introduce a simple, tuning-free alignment method, URIAL.
URIAL achieves effective alignment purely through in-context learning (ICL)
with base LLMs, requiring as few as three constant stylistic examples and a
system prompt. We conduct a fine-grained and interpretable evaluation on a
diverse set of examples, named JUST-EVAL-INSTRUCT. Results demonstrate that
base LLMs with URIAL can match or even surpass the performance of LLMs aligned
with SFT or SFT+RLHF. We show that the gap between tuning-free and tuning-based
alignment methods can be significantly reduced through strategic prompting and
ICL. Our findings on the superficial nature of alignment tuning and results
with URIAL suggest that deeper analysis and theoretical understanding of
alignment is crucial to future LLM research.