CausalLM n'est pas optimal pour l'apprentissage en contexte.
CausalLM is not optimal for in-context learning
August 14, 2023
Auteurs: Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut
cs.AI
Résumé
Des preuves empiriques récentes indiquent que l'apprentissage en contexte basé sur les transformateurs fonctionne mieux lorsqu'on utilise un modèle de langage à préfixe (prefixLM), dans lequel les échantillons en contexte peuvent tous s'attendre mutuellement, par rapport aux modèles de langage causals (causalLM), qui utilisent une attention auto-régressive empêchant les échantillons en contexte de s'attendre aux échantillons futurs. Bien que ce résultat soit intuitif, il n'est pas compris d'un point de vue théorique. Dans cet article, nous adoptons une approche théorique et analysons le comportement de convergence des prefixLM et causalLM sous une certaine construction de paramètres. Notre analyse montre que les deux types de modèles convergent vers leurs points stationnaires à un taux linéaire, mais que tandis que le prefixLM converge vers la solution optimale de la régression linéaire, la dynamique de convergence du causalLM suit celle d'un algorithme de descente de gradient en ligne, qui n'est pas garanti d'être optimal même lorsque le nombre d'échantillons augmente à l'infini. Nous complétons nos affirmations théoriques par des expériences empiriques sur des tâches synthétiques et réelles, en utilisant divers types de transformateurs. Nos expériences confirment que le causalLM sous-performe systématiquement le prefixLM dans tous les contextes.
English
Recent empirical evidence indicates that transformer based in-context
learning performs better when using a prefix language model (prefixLM), in
which in-context samples can all attend to each other, compared to causal
language models (causalLM), which use auto-regressive attention that prohibits
in-context samples to attend to future samples. While this result is intuitive,
it is not understood from a theoretical perspective. In this paper we take a
theoretical approach and analyze the convergence behavior of prefixLM and
causalLM under a certain parameter construction. Our analysis shows that both
LM types converge to their stationary points at a linear rate, but that while
prefixLM converges to the optimal solution of linear regression, causalLM
convergence dynamics follows that of an online gradient descent algorithm,
which is not guaranteed to be optimal even as the number of samples grows
infinitely. We supplement our theoretical claims with empirical experiments
over synthetic and real tasks and using various types of transformers. Our
experiments verify that causalLM consistently underperforms prefixLM in all
settings.