ChatPaper.aiChatPaper

Wanneer kunnen transformers redeneren met abstracte symbolen?

When can transformers reason with abstract symbols?

October 15, 2023
Auteurs: Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind
cs.AI

Samenvatting

We onderzoeken de mogelijkheden van transformer large language models (LLMs) bij relationele redeneertaken met abstracte symbolen. Dergelijke taken zijn al lang bestudeerd in de neurowetenschappelijke literatuur als fundamentele bouwstenen voor complexere vaardigheden in programmeren, wiskunde en verbaal redeneren. Voor (i) regressietaken bewijzen we dat transformers generaliseren wanneer ze getraind zijn, maar verbazingwekkend grote hoeveelheden trainingsdata nodig hebben. Voor (ii) next-token-predictiontaken met symbolische labels tonen we een "inverse schaalwet": transformers slagen er niet in te generaliseren naarmate hun embeddingdimensie toeneemt. Voor beide situaties (i) en (ii) stellen we subtiele aanpassingen aan transformers voor die de benodigde hoeveelheid data kunnen verminderen door twee trainbare parameters per head toe te voegen.
English
We investigate the capabilities of transformer large language models (LLMs) on relational reasoning tasks involving abstract symbols. Such tasks have long been studied in the neuroscience literature as fundamental building blocks for more complex abilities in programming, mathematics, and verbal reasoning. For (i) regression tasks, we prove that transformers generalize when trained, but require astonishingly large quantities of training data. For (ii) next-token-prediction tasks with symbolic labels, we show an "inverse scaling law": transformers fail to generalize as their embedding dimension increases. For both settings (i) and (ii), we propose subtle transformer modifications which can reduce the amount of data needed by adding two trainable parameters per head.
PDF41December 15, 2024