CausalLM не является оптимальным для обучения в контексте.
CausalLM is not optimal for in-context learning
August 14, 2023
Авторы: Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut
cs.AI
Аннотация
Недавние эмпирические данные свидетельствуют о том, что обучение в контексте на основе трансформеров демонстрирует лучшие результаты при использовании префиксной языковой модели (prefixLM), в которой все примеры в контексте могут взаимодействовать друг с другом, по сравнению с каузальными языковыми моделями (causalLM), которые используют авторегрессивное внимание, запрещающее примерам в контексте учитывать будущие примеры. Хотя этот результат интуитивно понятен, он не объяснен с теоретической точки зрения. В данной статье мы применяем теоретический подход и анализируем поведение сходимости prefixLM и causalLM при определенной конструкции параметров. Наш анализ показывает, что оба типа моделей сходятся к своим стационарным точкам с линейной скоростью, но при этом prefixLM сходится к оптимальному решению линейной регрессии, тогда как динамика сходимости causalLM следует алгоритму онлайн градиентного спуска, который не гарантирует оптимальности даже при бесконечном увеличении числа примеров. Мы дополняем наши теоретические утверждения эмпирическими экспериментами на синтетических и реальных задачах с использованием различных типов трансформеров. Наши эксперименты подтверждают, что causalLM стабильно уступает prefixLM во всех настройках.
English
Recent empirical evidence indicates that transformer based in-context
learning performs better when using a prefix language model (prefixLM), in
which in-context samples can all attend to each other, compared to causal
language models (causalLM), which use auto-regressive attention that prohibits
in-context samples to attend to future samples. While this result is intuitive,
it is not understood from a theoretical perspective. In this paper we take a
theoretical approach and analyze the convergence behavior of prefixLM and
causalLM under a certain parameter construction. Our analysis shows that both
LM types converge to their stationary points at a linear rate, but that while
prefixLM converges to the optimal solution of linear regression, causalLM
convergence dynamics follows that of an online gradient descent algorithm,
which is not guaranteed to be optimal even as the number of samples grows
infinitely. We supplement our theoretical claims with empirical experiments
over synthetic and real tasks and using various types of transformers. Our
experiments verify that causalLM consistently underperforms prefixLM in all
settings.