ChatPaper.aiChatPaper

Заклинание разблокировки для базовых языковых моделей: Переосмысление согласования через обучение в контексте

The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning

December 4, 2023
Авторы: Bill Yuchen Lin, Abhilasha Ravichander, Ximing Lu, Nouha Dziri, Melanie Sclar, Khyathi Chandu, Chandra Bhagavatula, Yejin Choi
cs.AI

Аннотация

Процесс настройки согласованности (alignment) больших языковых моделей (LLM) обычно включает обучение на инструкциях с помощью контролируемой тонкой настройки (SFT) и настройку предпочтений через обучение с подкреплением на основе обратной связи от человека (RLHF). Недавнее исследование LIMA (Zhou et al., 2023) показывает, что использование всего 1 тыс. примеров для SFT также может достичь значительной производительности в согласованности, что позволяет предположить, что эффект настройки согласованности может быть "поверхностным". Это ставит под сомнение то, как именно настройка согласованности преобразует базовую LLM. Мы анализируем эффект настройки согласованности, изучая сдвиг распределения токенов между базовыми LLM и их согласованными версиями. Наши результаты показывают, что базовые LLM и их версии с настройкой согласованности работают почти идентично при декодировании на большинстве позиций токенов. Большинство сдвигов распределения происходит со стилистическими токенами. Эти прямые доказательства убедительно подтверждают Гипотезу Поверхностного Согласования, предложенную LIMA. На основе этих выводов мы переосмысливаем согласование LLM, задавая исследовательский вопрос: насколько эффективно мы можем согласовать базовые LLM без SFT или RLHF? Для решения этой задачи мы представляем простой метод согласования без настройки, URIAL. URIAL достигает эффективного согласования исключительно через обучение в контексте (ICL) с использованием базовых LLM, требуя всего три постоянных стилистических примера и системного промпта. Мы проводим детальную и интерпретируемую оценку на разнообразном наборе примеров, названном JUST-EVAL-INSTRUCT. Результаты показывают, что базовые LLM с URIAL могут соответствовать или даже превосходить производительность LLM, согласованных с помощью SFT или SFT+RLHF. Мы демонстрируем, что разрыв между методами согласования без настройки и с настройкой может быть значительно сокращен за счет стратегического промптинга и ICL. Наши выводы о поверхностной природе настройки согласованности и результаты с URIAL указывают на то, что более глубокий анализ и теоретическое понимание согласования имеют решающее значение для будущих исследований LLM.
English
The alignment tuning process of large language models (LLMs) typically involves instruction learning through supervised fine-tuning (SFT) and preference tuning via reinforcement learning from human feedback (RLHF). A recent study, LIMA (Zhou et al. 2023), shows that using merely 1K examples for SFT can achieve significant alignment performance as well, suggesting that the effect of alignment tuning might be "superficial." This raises questions about how exactly the alignment tuning transforms a base LLM. We analyze the effect of alignment tuning by examining the token distribution shift between base LLMs and their aligned counterpart. Our findings reveal that base LLMs and their alignment-tuned versions perform nearly identically in decoding on the majority of token positions. Most distribution shifts occur with stylistic tokens. These direct evidence strongly supports the Superficial Alignment Hypothesis suggested by LIMA. Based on these findings, we rethink the alignment of LLMs by posing the research question: how effectively can we align base LLMs without SFT or RLHF? To address this, we introduce a simple, tuning-free alignment method, URIAL. URIAL achieves effective alignment purely through in-context learning (ICL) with base LLMs, requiring as few as three constant stylistic examples and a system prompt. We conduct a fine-grained and interpretable evaluation on a diverse set of examples, named JUST-EVAL-INSTRUCT. Results demonstrate that base LLMs with URIAL can match or even surpass the performance of LLMs aligned with SFT or SFT+RLHF. We show that the gap between tuning-free and tuning-based alignment methods can be significantly reduced through strategic prompting and ICL. Our findings on the superficial nature of alignment tuning and results with URIAL suggest that deeper analysis and theoretical understanding of alignment is crucial to future LLM research.
PDF344December 15, 2024