LoopFormer: Trasformatori ad Anello a Profondità Elastica per il Ragionamento Latente tramite Modulazione dei Collegamenti Diretti

Abstract

I Transformer ad anello sono emersi come una classe efficiente e potente di modelli per il ragionamento nel dominio linguistico. Studi recenti dimostrano che questi modelli raggiungono prestazioni solide in compiti algoritmici e di ragionamento, suggerendo che le architetture ad anello possiedono un bias induttivo verso il ragionamento latente. Tuttavia, gli approcci precedenti fissano il numero di iterazioni del ciclo durante l'addestramento e l'inferenza, lasciando aperta la questione se questi modelli possano adattare flessibilmente la propria profondità computazionale con budget di calcolo variabili. Introduciamo LoopFormer, un Transformer ad anello addestrato su traiettorie a lunghezza variabile per abilitare un ragionamento condizionato dal budget. Il nostro contributo principale è uno schema di addestramento a consistenza di scorciatoia che allinea traiettorie di diversa lunghezza, garantendo che cicli più corti producano rappresentazioni informative mentre cicli più lunghi continuano a raffinarle. LoopFormer condiziona ogni anello sul tempo corrente e sulla dimensione del passo, permettendo alle rappresentazioni di evolversi in modo coerente attraverso traiettorie di lunghezza variabile invece di divergere o stagnare. Empiricamente, LoopFormer dimostra prestazioni robuste nei benchmark di modellazione linguistica e di ragionamento anche sotto vincoli computazionali aggressivi, scalando con gradualità con budget aggiuntivi. Questi risultati mostrano che i Transformer ad anello sono intrinsecamente adatti per la modellazione linguistica adattiva, aprendo una strada verso grandi modelli linguistici controllabili e consapevoli del budget.

English

Looped Transformers have emerged as an efficient and powerful class of models for reasoning in the language domain. Recent studies show that these models achieve strong performance on algorithmic and reasoning tasks, suggesting that looped architectures possess an inductive bias toward latent reasoning. However, prior approaches fix the number of loop iterations during training and inference, leaving open the question of whether these models can flexibly adapt their computational depth under variable compute budgets. We introduce LoopFormer, a looped Transformer trained on variable-length trajectories to enable budget-conditioned reasoning. Our core contribution is a shortcut-consistency training scheme that aligns trajectories of different lengths, ensuring that shorter loops yield informative representations while longer loops continue to refine them. LoopFormer conditions each loop on the current time and step size, enabling representations to evolve consistently across trajectories of varying length rather than drifting or stagnating. Empirically, LoopFormer demonstrates robust performance on language modeling and reasoning benchmarks even under aggressive compute constraints, while scaling gracefully with additional budget. These results show that looped Transformers are inherently suited for adaptive language modeling, opening a path toward controllable and budget-aware large language models.

LoopFormer: Trasformatori ad Anello a Profondità Elastica per il Ragionamento Latente tramite Modulazione dei Collegamenti Diretti

LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation

Abstract

Support