Penser-en-Profondeur : Itérations Latentes Sélectives pour Améliorer les Modèles de Langage de Raisonnement

papers.abstract

L'amélioration des capacités de raisonnement des grands modèles de langage (LLM), particulièrement sous contrainte de paramètres, est cruciale pour les applications réelles. Les travaux antérieurs proposent des transformeurs récurrents, qui allouent un nombre fixe d'itérations supplémentaires par token pour améliorer la qualité de la génération. Après la première passe avant standard, au lieu de la verbalisation, les états cachés de la dernière couche sont réinjectés en entrée pour des itérations supplémentaires afin d'affiner les prédictions de tokens. Cependant, nous identifions un phénomène de « sur-réflexion » latent : des prédictions de tokens faciles, déjà correctes après la première passe, sont parfois modifiées en erreurs lors des itérations supplémentaires. Pour résoudre ce problème, nous proposons Think-at-Hard (TaH), une méthode de réflexion latente dynamique qui itère plus profondément uniquement sur les tokens difficiles. Elle utilise un décideur neuronal léger pour déclencher des itérations latentes uniquement sur les tokens susceptibles d'être incorrects après la passe avant standard. Durant les itérations latentes, des modules LoRA (Low-Rank Adaptation) font passer l'objectif du LLM d'une prédiction générale du token suivant à un affinage ciblé des tokens difficiles. Nous introduisons en outre un mécanisme d'attention doublement causale qui étend l'attention de la dimension séquentielle des tokens à une dimension supplémentaire de profondeur d'itération. Cela permet un flux d'information trans-itération tout en maintenant un parallélisme séquentiel complet. Les expériences montrent que TaH améliore les performances de raisonnement des LLM sur cinq benchmarks exigeants tout en conservant le même nombre de paramètres. Par rapport aux modèles de référence qui itèrent deux fois pour tous les tokens de sortie, TaH procure des gains de précision de 8,1 à 11,3 % tout en exemptant 94 % des tokens de la seconde itération. Face aux modèles Qwen3 à itération unique finetunés avec les mêmes données, il procure également des gains de précision de 4,0 à 5,0 %. Lorsque l'on autorise moins de 3 % de paramètres supplémentaires via LoRA et le décideur d'itération, les gains augmentent respectivement à 8,5-12,6 % et 5,3-5,4 %. Notre code est disponible à l'adresse https://github.com/thu-nics/TaH.

English

Improving reasoning capabilities of Large Language Models (LLMs), especially under parameter constraints, is crucial for real-world applications. Prior work proposes recurrent transformers, which allocate a fixed number of extra iterations per token to improve generation quality. After the first, standard forward pass, instead of verbalization, last-layer hidden states are fed back as inputs for additional iterations to refine token predictions. Yet we identify a latent overthinking phenomenon: easy token predictions that are already correct after the first pass are sometimes revised into errors in additional iterations. To address this, we propose Think-at-Hard (TaH), a dynamic latent thinking method that iterates deeper only at hard tokens. It employs a lightweight neural decider to trigger latent iterations only at tokens that are likely incorrect after the standard forward pass. During latent iterations, Low-Rank Adaptation (LoRA) modules shift the LLM objective from general next-token prediction to focused hard-token refinement. We further introduce a duo-causal attention mechanism that extends attention from the token sequence dimension to an additional iteration depth dimension. This enables cross-iteration information flow while maintaining full sequential parallelism. Experiments show that TaH boosts LLM reasoning performance across five challenging benchmarks while maintaining the same parameter count. Compared with baselines that iterate twice for all output tokens, TaH delivers 8.1-11.3% accuracy gains while exempting 94% of tokens from the second iteration. Against strong single-iteration Qwen3 models finetuned with the same data, it also delivers 4.0-5.0% accuracy gains. When allowing less than 3% additional parameters from LoRA and the iteration decider, the gains increase to 8.5-12.6% and 5.3-5.4%, respectively. Our code is available at https://github.com/thu-nics/TaH.

Penser-en-Profondeur : Itérations Latentes Sélectives pour Améliorer les Modèles de Langage de Raisonnement

Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

papers.abstract

Support