LoopRPT : Pré-entraînement par renforcement pour les modèles de langage en boucle

Résumé

Les modèles de langage à boucles (LoopLMs) effectuent un calcul latent itératif pour affiner leurs représentations internes, offrant une alternative prometteuse au raisonnement explicite par enchaînement de pensées (CoT). Cependant, les paradigmes existants d'apprentissage par renforcement (RL) ciblent principalement les tokens de sortie, créant un décalage structurel avec les architectures bouclées dont le raisonnement se déroule de manière implicite. Dans ce travail, nous proposons LoopRPT, un cadre de pré-entraînement par renforcement conçu pour les LoopLMs. En reformulant la prédiction du token suivant comme une tâche de raisonnement pour le token suivant, LoopRPT attribue les signaux de renforcement directement aux étapes latentes en utilisant une référence enseignante EMA et des déploiements latents bruités. Cette formulation permet au RL de façonner directement les représentations intermédiaires, compressant le raisonnement efficace en moins d'itérations. Nous instancions LoopRPT sur l'architecture Ouro à plusieurs échelles de modèles. Les résultats démontrent que LoopRPT améliore constamment la qualité des représentations par étape, atteignant une dominance de Pareto dans les compromis précision-calcul. Notamment, des gains significatifs sur les tokens difficiles indiquent que LoopRPT améliore le raisonnement aux stades précoces plutôt que de simplement encourager des sorties prématurées. Nos résultats soulignent le pré-entraînement par renforcement comme un paradigme fondé pour apprendre un raisonnement latent efficace dans les LoopLMs.

English

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.

LoopRPT : Pré-entraînement par renforcement pour les modèles de langage en boucle

LoopRPT: Reinforcement Pre-Training for Looped Language Models

Résumé

Support