LoopFormer : Transformers à boucles à profondeur élastique pour le raisonnement latent via la modulation de raccourci

Résumé

Les Transformers à boucle sont apparus comme une classe de modèles efficace et puissante pour le raisonnement dans le domaine du langage. Des études récentes montrent que ces modèles obtiennent de solides performances sur des tâches algorithmiques et de raisonnement, suggérant que les architectures à boucle possèdent un biais inductif favorisant un raisonnement latent. Cependant, les approches antérieures fixent le nombre d'itérations de la boucle pendant l'entraînement et l'inférence, laissant ouverte la question de savoir si ces modèles peuvent adapter flexiblement leur profondeur computationnelle sous des budgets de calcul variables. Nous présentons LoopFormer, un Transformer à boucle entraîné sur des trajectoires de longueur variable pour permettre un raisonnement conditionné par le budget. Notre contribution principale est un schéma d'entraînement par cohérence de raccourci qui aligne les trajectoires de différentes longueurs, garantissant que des boucles plus courtes produisent des représentations informatives tandis que des boucles plus longues continuent de les affiner. LoopFormer conditionne chaque boucle sur le temps actuel et la taille du pas, permettant aux représentations d'évoluer de manière cohérente sur des trajectoires de longueur variable plutôt que de dériver ou de stagner. Empiriquement, LoopFormer démontre des performances robustes sur des benchmarks de modélisation du langage et de raisonnement, même sous des contraintes de calcul agressives, tout en s'adaptant harmonieusement à un budget supplémentaire. Ces résultats montrent que les Transformers à boucle sont intrinsèquement adaptés à la modélisation du langage adaptive, ouvrant une voie vers des grands modèles de langage contrôlables et conscients du budget.

English

Looped Transformers have emerged as an efficient and powerful class of models for reasoning in the language domain. Recent studies show that these models achieve strong performance on algorithmic and reasoning tasks, suggesting that looped architectures possess an inductive bias toward latent reasoning. However, prior approaches fix the number of loop iterations during training and inference, leaving open the question of whether these models can flexibly adapt their computational depth under variable compute budgets. We introduce LoopFormer, a looped Transformer trained on variable-length trajectories to enable budget-conditioned reasoning. Our core contribution is a shortcut-consistency training scheme that aligns trajectories of different lengths, ensuring that shorter loops yield informative representations while longer loops continue to refine them. LoopFormer conditions each loop on the current time and step size, enabling representations to evolve consistently across trajectories of varying length rather than drifting or stagnating. Empirically, LoopFormer demonstrates robust performance on language modeling and reasoning benchmarks even under aggressive compute constraints, while scaling gracefully with additional budget. These results show that looped Transformers are inherently suited for adaptive language modeling, opening a path toward controllable and budget-aware large language models.

LoopFormer : Transformers à boucles à profondeur élastique pour le raisonnement latent via la modulation de raccourci

LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation

Résumé

Support