Quand les transformeurs peuvent-ils raisonner avec des symboles abstraits ?
When can transformers reason with abstract symbols?
October 15, 2023
Auteurs: Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind
cs.AI
Résumé
Nous étudions les capacités des grands modèles de langage (LLM) basés sur des architectures de type transformer pour des tâches de raisonnement relationnel impliquant des symboles abstraits. Ces tâches ont longtemps été étudiées dans la littérature en neurosciences comme des éléments fondamentaux pour des compétences plus complexes en programmation, mathématiques et raisonnement verbal. Pour (i) les tâches de régression, nous démontrons que les transformers généralisent lorsqu'ils sont entraînés, mais nécessitent des quantités étonnamment importantes de données d'entraînement. Pour (ii) les tâches de prédiction du token suivant avec des étiquettes symboliques, nous observons une "loi d'échelle inverse" : les transformers échouent à généraliser à mesure que la dimension de leur espace d'embedding augmente. Pour les deux configurations (i) et (ii), nous proposons des modifications subtiles des transformers qui peuvent réduire la quantité de données nécessaires en ajoutant deux paramètres entraînables par tête d'attention.
English
We investigate the capabilities of transformer large language models (LLMs)
on relational reasoning tasks involving abstract symbols. Such tasks have long
been studied in the neuroscience literature as fundamental building blocks for
more complex abilities in programming, mathematics, and verbal reasoning. For
(i) regression tasks, we prove that transformers generalize when trained, but
require astonishingly large quantities of training data. For (ii)
next-token-prediction tasks with symbolic labels, we show an "inverse scaling
law": transformers fail to generalize as their embedding dimension increases.
For both settings (i) and (ii), we propose subtle transformer modifications
which can reduce the amount of data needed by adding two trainable parameters
per head.