ChatPaper.aiChatPaper

Der Entsperrzauber für Basis-LLMs: Neubetrachtung der Alignment-Strategie durch In-Context-Lernen

The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning

December 4, 2023
Autoren: Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi
cs.AI

Zusammenfassung

Der Abstimmungsprozess (Alignment) großer Sprachmodelle (LLMs) umfasst in der Regel Instruktionslernen durch überwachtes Fein-Tuning (SFT) und Präferenzabstimmung mittels Verstärkungslernen aus menschlichem Feedback (RLHF). Eine aktuelle Studie, LIMA (Zhou et al. 2023), zeigt, dass bereits die Verwendung von nur 1.000 Beispielen für SFT eine signifikante Abstimmungsleistung erzielen kann, was darauf hindeutet, dass der Effekt des Alignment-Tunings möglicherweise „oberflächlich“ ist. Dies wirft Fragen darüber auf, wie genau das Alignment-Tuning ein Basismodell (Base LLM) transformiert. Wir analysieren den Effekt des Alignment-Tunings, indem wir die Verschiebung der Token-Verteilung zwischen Basismodellen und ihren abgestimmten Versionen untersuchen. Unsere Ergebnisse zeigen, dass Basismodelle und ihre alignment-getunten Versionen bei der Dekodierung der meisten Token-Positionen nahezu identisch abschneiden. Die meisten Verteilungsverschiebungen treten bei stilistischen Token auf. Diese direkten Beweise stützen die von LIMA vorgeschlagene Oberflächliche-Alignment-Hypothese stark. Basierend auf diesen Erkenntnissen hinterfragen wir das Alignment von LLMs, indem wir die Forschungsfrage stellen: Wie effektiv können wir Basismodelle ohne SFT oder RLHF abstimmen? Um dies zu beantworten, führen wir eine einfache, tuning-freie Alignment-Methode namens URIAL ein. URIAL erreicht eine effektive Abstimmung ausschließlich durch In-Context-Lernen (ICL) mit Basismodellen, wobei nur drei konstante stilistische Beispiele und ein System-Prompt benötigt werden. Wir führen eine feingranulare und interpretierbare Evaluation anhand einer vielfältigen Beispielsammlung namens JUST-EVAL-INSTRUCT durch. Die Ergebnisse zeigen, dass Basismodelle mit URIAL die Leistung von mit SFT oder SFT+RLHF abgestimmten LLMs erreichen oder sogar übertreffen können. Wir zeigen, dass die Lücke zwischen tuning-freien und tuning-basierten Alignment-Methoden durch strategisches Prompting und ICL erheblich verringert werden kann. Unsere Erkenntnisse über die oberflächliche Natur des Alignment-Tunings sowie die Ergebnisse mit URIAL legen nahe, dass eine tiefere Analyse und ein theoretisches Verständnis des Alignments für zukünftige LLM-Forschung entscheidend sind.
English
The alignment tuning process of large language models (LLMs) typically involves instruction learning through supervised fine-tuning (SFT) and preference tuning via reinforcement learning from human feedback (RLHF). A recent study, LIMA (Zhou et al. 2023), shows that using merely 1K examples for SFT can achieve significant alignment performance as well, suggesting that the effect of alignment tuning might be "superficial." This raises questions about how exactly the alignment tuning transforms a base LLM. We analyze the effect of alignment tuning by examining the token distribution shift between base LLMs and their aligned counterpart. Our findings reveal that base LLMs and their alignment-tuned versions perform nearly identically in decoding on the majority of token positions. Most distribution shifts occur with stylistic tokens. These direct evidence strongly supports the Superficial Alignment Hypothesis suggested by LIMA. Based on these findings, we rethink the alignment of LLMs by posing the research question: how effectively can we align base LLMs without SFT or RLHF? To address this, we introduce a simple, tuning-free alignment method, URIAL. URIAL achieves effective alignment purely through in-context learning (ICL) with base LLMs, requiring as few as three constant stylistic examples and a system prompt. We conduct a fine-grained and interpretable evaluation on a diverse set of examples, named JUST-EVAL-INSTRUCT. Results demonstrate that base LLMs with URIAL can match or even surpass the performance of LLMs aligned with SFT or SFT+RLHF. We show that the gap between tuning-free and tuning-based alignment methods can be significantly reduced through strategic prompting and ICL. Our findings on the superficial nature of alignment tuning and results with URIAL suggest that deeper analysis and theoretical understanding of alignment is crucial to future LLM research.
PDF344December 15, 2024