Sbloccare la Generalizzazione Fuori Distribuzione nei Transformer tramite Ragionamento Ricorsivo nello Spazio Latente
Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning
October 15, 2025
Autori: Awni Altabaa, Siyu Chen, John Lafferty, Zhuoran Yang
cs.AI
Abstract
La generalizzazione sistematica e compositiva al di là della distribuzione di addestramento rimane una sfida fondamentale nel machine learning e un collo di bottiglia critico per le capacità di ragionamento emergenti dei moderni modelli linguistici. Questo lavoro indaga la generalizzazione fuori distribuzione (OOD) nelle reti Transformer utilizzando come banco di prova un'attività di aritmetica modulare su grafi computazionali in stile GSM8K. Introduciamo ed esploriamo un insieme di quattro meccanismi architetturali mirati a migliorare la generalizzazione OOD: (i) ricorrenza adattiva agli input; (ii) supervisione algoritmica; (iii) rappresentazioni latenti ancorate tramite un collo di bottiglia discreto; e (iv) un meccanismo esplicito di correzione degli errori. Collettivamente, questi meccanismi forniscono un approccio architetturale per il ragionamento nativo e scalabile nello spazio latente nelle reti Transformer, con robuste capacità di generalizzazione algoritmica. Integriamo questi risultati empirici con un'analisi dettagliata di interpretabilità meccanicistica che rivela come questi meccanismi diano origine a solide capacità di generalizzazione OOD.
English
Systematic, compositional generalization beyond the training distribution
remains a core challenge in machine learning -- and a critical bottleneck for
the emergent reasoning abilities of modern language models. This work
investigates out-of-distribution (OOD) generalization in Transformer networks
using a GSM8K-style modular arithmetic on computational graphs task as a
testbed. We introduce and explore a set of four architectural mechanisms aimed
at enhancing OOD generalization: (i) input-adaptive recurrence; (ii)
algorithmic supervision; (iii) anchored latent representations via a discrete
bottleneck; and (iv) an explicit error-correction mechanism. Collectively,
these mechanisms yield an architectural approach for native and scalable latent
space reasoning in Transformer networks with robust algorithmic generalization
capabilities. We complement these empirical results with a detailed mechanistic
interpretability analysis that reveals how these mechanisms give rise to robust
OOD generalization abilities.