Возникновение абстракций: механизм кодирования и декодирования концепций для обучения в контексте в трансформерах
Emergence of Abstractions: Concept Encoding and Decoding Mechanism for In-Context Learning in Transformers
December 16, 2024
Авторы: Seungwook Han, Jinyeop Song, Jeff Gore, Pulkit Agrawal
cs.AI
Аннотация
Люди упрощают сложные опыты до основных абстракций, которые обеспечивают быстрое обучение и адаптацию. Авторегрессивные трансформеры, аналогично, проявляют адаптивное обучение через обучение в контексте (ICL), что порождает вопрос о том, как. В данной статье мы предлагаем механизм кодирования-декодирования концепций для объяснения ICL, изучая, как трансформеры формируют и используют внутренние абстракции в своих представлениях. На синтетических задачах ICL мы анализируем динамику обучения небольшого трансформера и сообщаем о совместном возникновении кодирования и декодирования концепций. По мере того как модель учится кодировать различные латентные концепции (например, "Нахождение первого существительного в предложении.") в различные, разделимые представления, она параллельно создает условные алгоритмы декодирования и улучшает свою производительность в ICL. Мы подтверждаем существование этого механизма на предварительно обученных моделях различных масштабов (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B). Кроме того, через механистические вмешательства и контролируемую донастройку, мы демонстрируем, что качество кодирования концепций имеет причинно-следственную связь и предсказывает производительность в ICL. Наши эмпирические исследования проливают свет на лучшее понимание успешных и неуспешных режимов крупных языковых моделей через их представления.
English
Humans distill complex experiences into fundamental abstractions that enable
rapid learning and adaptation. Similarly, autoregressive transformers exhibit
adaptive learning through in-context learning (ICL), which begs the question of
how. In this paper, we propose concept encoding-decoding mechanism to
explain ICL by studying how transformers form and use internal abstractions in
their representations. On synthetic ICL tasks, we analyze the training dynamics
of a small transformer and report the coupled emergence of concept encoding and
decoding. As the model learns to encode different latent concepts (e.g.,
``Finding the first noun in a sentence.") into distinct, separable
representations, it concureently builds conditional decoding algorithms and
improve its ICL performance. We validate the existence of this mechanism across
pretrained models of varying scales (Gemma-2 2B/9B/27B, Llama-3.1 8B/70B).
Further, through mechanistic interventions and controlled finetuning, we
demonstrate that the quality of concept encoding is causally related and
predictive of ICL performance. Our empirical insights shed light into better
understanding the success and failure modes of large language models via their
representations.Summary
AI-Generated Summary