ChatPaper.aiChatPaper

¿Cuándo pueden los transformadores razonar con símbolos abstractos?

When can transformers reason with abstract symbols?

October 15, 2023
Autores: Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind
cs.AI

Resumen

Investigamos las capacidades de los modelos de lenguaje grandes (LLMs) basados en transformadores para tareas de razonamiento relacional que involucran símbolos abstractos. Estas tareas han sido ampliamente estudiadas en la literatura de neurociencia como bloques fundamentales para habilidades más complejas en programación, matemáticas y razonamiento verbal. Para (i) tareas de regresión, demostramos que los transformadores generalizan cuando se entrenan, pero requieren cantidades sorprendentemente grandes de datos de entrenamiento. Para (ii) tareas de predicción del siguiente token con etiquetas simbólicas, mostramos una "ley de escalado inverso": los transformadores no logran generalizar a medida que aumenta su dimensión de incrustación. Para ambos escenarios (i) y (ii), proponemos modificaciones sutiles en los transformadores que pueden reducir la cantidad de datos necesarios al agregar dos parámetros entrenables por cabeza.
English
We investigate the capabilities of transformer large language models (LLMs) on relational reasoning tasks involving abstract symbols. Such tasks have long been studied in the neuroscience literature as fundamental building blocks for more complex abilities in programming, mathematics, and verbal reasoning. For (i) regression tasks, we prove that transformers generalize when trained, but require astonishingly large quantities of training data. For (ii) next-token-prediction tasks with symbolic labels, we show an "inverse scaling law": transformers fail to generalize as their embedding dimension increases. For both settings (i) and (ii), we propose subtle transformer modifications which can reduce the amount of data needed by adding two trainable parameters per head.
PDF41December 15, 2024