Когда трансформеры могут рассуждать с использованием абстрактных символов?
When can transformers reason with abstract symbols?
October 15, 2023
Авторы: Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind
cs.AI
Аннотация
Мы исследуем способности крупных языковых моделей (LLM) на основе трансформеров в задачах реляционного рассуждения, связанных с абстрактными символами. Такие задачи давно изучаются в нейронаучной литературе как фундаментальные строительные блоки для более сложных способностей в программировании, математике и вербальном рассуждении. Для (i) задач регрессии мы доказываем, что трансформеры обобщают при обучении, но требуют поразительно больших объемов обучающих данных. Для (ii) задач предсказания следующего токена с символическими метками мы демонстрируем "обратный закон масштабирования": трансформеры не способны обобщать с увеличением размерности их эмбеддингов. Для обоих сценариев (i) и (ii) мы предлагаем тонкие модификации трансформеров, которые могут сократить объем необходимых данных за счет добавления двух обучаемых параметров на каждый головной блок.
English
We investigate the capabilities of transformer large language models (LLMs)
on relational reasoning tasks involving abstract symbols. Such tasks have long
been studied in the neuroscience literature as fundamental building blocks for
more complex abilities in programming, mathematics, and verbal reasoning. For
(i) regression tasks, we prove that transformers generalize when trained, but
require astonishingly large quantities of training data. For (ii)
next-token-prediction tasks with symbolic labels, we show an "inverse scaling
law": transformers fail to generalize as their embedding dimension increases.
For both settings (i) and (ii), we propose subtle transformer modifications
which can reduce the amount of data needed by adding two trainable parameters
per head.