LoopUS : Reconvertir les LLM pré-entraînés en modèles de raffinement latent en boucle

Résumé

Le calcul en boucle montre un potentiel prometteur pour améliorer les performances orientées raisonnement des LLMs en augmentant le calcul en phase de test. Cependant, les approches existantes nécessitent généralement soit d'entraîner des modèles récurrents à partir de zéro, soit d'appliquer des adaptations perturbatrices, ce qui implique des coûts de calcul substantiels et peut compromettre les capacités pré-entraînées. Pour remédier à ces limitations, nous introduisons Looped Depth Up-Scaling (LoopUS), un cadre post-entraînement qui convertit un LLM pré-entraîné standard en une architecture en boucle. En tant que contribution technique clé, LoopUS reformule le LLM pré-entraîné en un encodeur, un bloc de raisonnement en boucle et un décodeur. Il opérationnalise cette architecture de raffinement latent à travers quatre composants principaux : (1) une décomposition en blocs, guidée par la dynamique de représentation par étapes ; (2) une porte sélective dépendante de l’entrée pour atténuer la dérive des états cachés ; (3) une supervision profonde aléatoire pour un apprentissage économe en mémoire sur de longs horizons récursifs ; et (4) une tête de confiance pour une sortie anticipée adaptative. Collectivement, ces mécanismes transforment un modèle standard non bouclé en une forme en boucle tout en le stabilisant contre les goulots d'étranglement computationnels et l'effondrement des représentations. Grâce à un bouclage latent stable, LoopUS améliore les performances orientées raisonnement sans étendre les traces générées ni nécessiter un entraînement récurrent à partir de zéro. Pour plus de détails, voir https://thrillcrazyer.github.io/LoopUS

English

Looped computation shows promise in improving the reasoning-oriented performance of LLMs by scaling test-time compute. However, existing approaches typically require either training recurrent models from scratch or applying disruptive retrofits, which involve substantial computational costs and may compromise pretrained capabilities. To address these limitations, we introduce Looped Depth Up-Scaling (LoopUS), a post-training framework that converts a standard pretrained LLM into a looped architecture. As a key technical contribution, LoopUS recasts the pretrained LLM into an encoder, a looped reasoning block, and a decoder. It operationalizes this latent-refinement architecture through four core components: (1) block decomposition, guided by staged representation dynamics; (2) an input-dependent selective gate to mitigate hidden-state drift; (3) random deep supervision for memory-efficient learning over long recursive horizons; and (4) a confidence head for adaptive early exiting. Collectively, these mechanisms transform a standard non-looped model into a looped form while stabilizing it against both computational bottlenecks and representation collapse. Through stable latent looping, LoopUS improves reasoning-oriented performance without extending the generated traces or requiring recurrent training from scratch. For more details, see https://thrillcrazyer.github.io/LoopUS

LoopUS : Reconvertir les LLM pré-entraînés en modèles de raffinement latent en boucle

LoopUS: Recasting Pretrained LLMs into Looped Latent Refinement Models

Résumé

Support