Quando os transformadores podem raciocinar com símbolos abstratos?
When can transformers reason with abstract symbols?
October 15, 2023
Autores: Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind
cs.AI
Resumo
Investigamos as capacidades de modelos de linguagem grandes (LLMs) baseados em transformadores em tarefas de raciocínio relacional envolvendo símbolos abstratos. Essas tarefas têm sido estudadas há muito tempo na literatura de neurociência como blocos fundamentais para habilidades mais complexas em programação, matemática e raciocínio verbal. Para (i) tarefas de regressão, provamos que os transformadores generalizam quando treinados, mas exigem quantidades surpreendentemente grandes de dados de treinamento. Para (ii) tarefas de previsão do próximo token com rótulos simbólicos, mostramos uma "lei de escala inversa": os transformadores falham em generalizar à medida que sua dimensão de incorporação aumenta. Para ambos os cenários (i) e (ii), propomos modificações sutis nos transformadores que podem reduzir a quantidade de dados necessária ao adicionar dois parâmetros treináveis por cabeça.
English
We investigate the capabilities of transformer large language models (LLMs)
on relational reasoning tasks involving abstract symbols. Such tasks have long
been studied in the neuroscience literature as fundamental building blocks for
more complex abilities in programming, mathematics, and verbal reasoning. For
(i) regression tasks, we prove that transformers generalize when trained, but
require astonishingly large quantities of training data. For (ii)
next-token-prediction tasks with symbolic labels, we show an "inverse scaling
law": transformers fail to generalize as their embedding dimension increases.
For both settings (i) and (ii), we propose subtle transformer modifications
which can reduce the amount of data needed by adding two trainable parameters
per head.