ChatPaper.aiChatPaper

Le Sortilège de Déverrouillage des LLMs de Base : Repenser l'Alignement via l'Apprentissage en Contexte

The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning

December 4, 2023
Auteurs: Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi
cs.AI

Résumé

Le processus d'alignement des grands modèles de langage (LLMs) implique généralement un apprentissage par instructions via un affinage supervisé (SFT) et un ajustement des préférences par apprentissage par renforcement à partir de retours humains (RLHF). Une étude récente, LIMA (Zhou et al. 2023), montre qu'utiliser seulement 1 000 exemples pour le SFT peut également atteindre des performances d'alignement significatives, suggérant que l'effet de l'alignement pourrait être "superficiel". Cela soulève des questions sur la manière exacte dont l'alignement transforme un LLM de base. Nous analysons l'effet de l'alignement en examinant le décalage de distribution des tokens entre les LLMs de base et leurs versions alignées. Nos résultats révèlent que les LLMs de base et leurs versions alignées se comportent de manière presque identique lors du décodage sur la majorité des positions de tokens. La plupart des décalages de distribution se produisent avec des tokens stylistiques. Ces preuves directes soutiennent fortement l'hypothèse de l'alignement superficiel suggérée par LIMA. Sur la base de ces résultats, nous repensons l'alignement des LLMs en posant la question de recherche suivante : dans quelle mesure pouvons-nous aligner les LLMs de base sans SFT ni RLHF ? Pour y répondre, nous introduisons une méthode d'alignement simple et sans affinage, URIAL. URIAL réalise un alignement efficace uniquement par apprentissage en contexte (ICL) avec des LLMs de base, nécessitant aussi peu que trois exemples stylistiques constants et une invite système. Nous menons une évaluation fine et interprétable sur un ensemble diversifié d'exemples, nommé JUST-EVAL-INSTRUCT. Les résultats montrent que les LLMs de base avec URIAL peuvent égaler ou même surpasser les performances des LLMs alignés avec SFT ou SFT+RLHF. Nous montrons que l'écart entre les méthodes d'alignement sans affinage et celles basées sur l'affinage peut être significativement réduit grâce à des invites stratégiques et à l'ICL. Nos conclusions sur la nature superficielle de l'alignement et les résultats avec URIAL suggèrent qu'une analyse plus approfondie et une compréhension théorique de l'alignement sont cruciales pour les futures recherches sur les LLMs.
English
The alignment tuning process of large language models (LLMs) typically involves instruction learning through supervised fine-tuning (SFT) and preference tuning via reinforcement learning from human feedback (RLHF). A recent study, LIMA (Zhou et al. 2023), shows that using merely 1K examples for SFT can achieve significant alignment performance as well, suggesting that the effect of alignment tuning might be "superficial." This raises questions about how exactly the alignment tuning transforms a base LLM. We analyze the effect of alignment tuning by examining the token distribution shift between base LLMs and their aligned counterpart. Our findings reveal that base LLMs and their alignment-tuned versions perform nearly identically in decoding on the majority of token positions. Most distribution shifts occur with stylistic tokens. These direct evidence strongly supports the Superficial Alignment Hypothesis suggested by LIMA. Based on these findings, we rethink the alignment of LLMs by posing the research question: how effectively can we align base LLMs without SFT or RLHF? To address this, we introduce a simple, tuning-free alignment method, URIAL. URIAL achieves effective alignment purely through in-context learning (ICL) with base LLMs, requiring as few as three constant stylistic examples and a system prompt. We conduct a fine-grained and interpretable evaluation on a diverse set of examples, named JUST-EVAL-INSTRUCT. Results demonstrate that base LLMs with URIAL can match or even surpass the performance of LLMs aligned with SFT or SFT+RLHF. We show that the gap between tuning-free and tuning-based alignment methods can be significantly reduced through strategic prompting and ICL. Our findings on the superficial nature of alignment tuning and results with URIAL suggest that deeper analysis and theoretical understanding of alignment is crucial to future LLM research.
PDF344December 15, 2024