Wann können Transformer mit abstrakten Symbolen schlussfolgern?

papers.abstract

Wir untersuchen die Fähigkeiten von Transformer-Modellen für große Sprachmodelle (LLMs) bei relationalen Denkaufgaben, die abstrakte Symbole betreffen. Solche Aufgaben wurden in der Neurowissenschaftsliteratur lange als grundlegende Bausteine für komplexere Fähigkeiten in Programmierung, Mathematik und verbalem Denken untersucht. Für (i) Regressionsaufgaben beweisen wir, dass Transformer-Modelle bei Training verallgemeinern können, jedoch erstaunlich große Mengen an Trainingsdaten benötigen. Für (ii) Next-Token-Prediction-Aufgaben mit symbolischen Labels zeigen wir ein „inverses Skalierungsgesetz“: Transformer-Modelle scheitern an der Verallgemeinerung, wenn ihre Einbettungsdimension zunimmt. Für beide Szenarien (i) und (ii) schlagen wir subtile Modifikationen der Transformer-Modelle vor, die den benötigten Datenbedarf reduzieren können, indem zwei trainierbare Parameter pro Kopf hinzugefügt werden.

English

We investigate the capabilities of transformer large language models (LLMs) on relational reasoning tasks involving abstract symbols. Such tasks have long been studied in the neuroscience literature as fundamental building blocks for more complex abilities in programming, mathematics, and verbal reasoning. For (i) regression tasks, we prove that transformers generalize when trained, but require astonishingly large quantities of training data. For (ii) next-token-prediction tasks with symbolic labels, we show an "inverse scaling law": transformers fail to generalize as their embedding dimension increases. For both settings (i) and (ii), we propose subtle transformer modifications which can reduce the amount of data needed by adding two trainable parameters per head.

Wann können Transformer mit abstrakten Symbolen schlussfolgern?

When can transformers reason with abstract symbols?

papers.abstract

Support