Quando i transformer possono ragionare con simboli astratti?
When can transformers reason with abstract symbols?
October 15, 2023
Autori: Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind
cs.AI
Abstract
Investighiamo le capacità dei modelli linguistici di grandi dimensioni basati su trasformatori (LLM) in compiti di ragionamento relazionale che coinvolgono simboli astratti. Tali compiti sono stati a lungo studiati nella letteratura neuroscientifica come elementi costitutivi fondamentali per abilità più complesse nella programmazione, nella matematica e nel ragionamento verbale. Per (i) i compiti di regressione, dimostriamo che i trasformatori generalizzano quando addestrati, ma richiedono quantità sorprendentemente elevate di dati di addestramento. Per (ii) i compiti di previsione del token successivo con etichette simboliche, mostriamo una "legge di scala inversa": i trasformatori non riescono a generalizzare all'aumentare della dimensione dell'embedding. Per entrambe le impostazioni (i) e (ii), proponiamo modifiche sottili ai trasformatori che possono ridurre la quantità di dati necessari aggiungendo due parametri addestrabili per testa.
English
We investigate the capabilities of transformer large language models (LLMs)
on relational reasoning tasks involving abstract symbols. Such tasks have long
been studied in the neuroscience literature as fundamental building blocks for
more complex abilities in programming, mathematics, and verbal reasoning. For
(i) regression tasks, we prove that transformers generalize when trained, but
require astonishingly large quantities of training data. For (ii)
next-token-prediction tasks with symbolic labels, we show an "inverse scaling
law": transformers fail to generalize as their embedding dimension increases.
For both settings (i) and (ii), we propose subtle transformer modifications
which can reduce the amount of data needed by adding two trainable parameters
per head.