Think-at-Hard: Selektive latente Iterationen zur Verbesserung von Reasoning-Sprachmodellen
Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
November 11, 2025
papers.authors: Tianyu Fu, Yichen You, Zekai Chen, Guohao Dai, Huazhong Yang, Yu Wang
cs.AI
papers.abstract
Die Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs), insbesondere unter Parameterbeschränkungen, ist für reale Anwendungen entscheidend. Bisherige Arbeiten schlagen rekurrente Transformer vor, die eine feste Anzahl zusätzlicher Iterationen pro Token zuweisen, um die Generierungsqualität zu verbessern. Nach dem ersten, standardmäßigen Vorwärtsdurchlauf werden anstelle der Verbalisierung die Hidden States der letzten Schicht als Eingabe für zusätzliche Iterationen zurückgeführt, um die Token-Vorhersagen zu verfeinern. Dennoch identifizieren wir ein latentes "Overthinking"-Phänomen: Einfache Token-Vorhersagen, die bereits nach dem ersten Durchlauf korrekt sind, werden in zusätzlichen Iterationen manchmal zu Fehlern revidiert. Um dies zu adressieren, schlagen wir Think-at-Hard (TaH) vor, eine dynamische latente Denkmethode, die nur bei schwierigen Tokens tiefer iteriert. Sie verwendet einen leichten neuronalen Entscheider, um latente Iterationen nur bei Tokens auszulösen, die nach dem standardmäßigen Vorwärtsdurchlauf wahrscheinlich falsch sind. Während der latenten Iterationen verschieben Low-Rank Adaptation (LoRA)-Module das LLM-Ziel von der allgemeinen Next-Token-Prediction hin zur fokussierten Verfeinerung schwieriger Tokens. Wir führen weiterhin einen duo-causalen Attention-Mechanismus ein, der die Attention von der Token-Sequenzdimension auf eine zusätzliche Iterationstiefendimension erweitert. Dies ermöglicht Informationsfluss über Iterationen hinweg bei vollständiger Beibehaltung der sequentiellen Parallelität. Experimente zeigen, dass TaH die Reasoning-Leistung von LLMs über fünf anspruchsvolle Benchmarks hinweg steigert, während die gleiche Parameteranzahl beibehalten wird. Im Vergleich zu Baseline-Modellen, die alle Ausgabetokens zweimal iterieren, erzielt TaH Genauigkeitssteigerungen von 8,1–11,3 %, während 94 % der Tokens von der zweiten Iteration befreit werden. Gegenüber starken Qwen3-Modellen mit nur einer Iteration, die mit denselben Daten feinabgestimmt wurden, erzielt es ebenfalls Genauigkeitssteigerungen von 4,0–5,0 %. Wenn weniger als 3 % zusätzliche Parameter durch LoRA und den Iterationsentscheider zugelassen werden, erhöhen sich die Gewinne auf 8,5–12,6 % bzw. 5,3–5,4 %. Unser Code ist verfügbar unter https://github.com/thu-nics/TaH.
English
Improving reasoning capabilities of Large Language Models (LLMs), especially under parameter constraints, is crucial for real-world applications. Prior work proposes recurrent transformers, which allocate a fixed number of extra iterations per token to improve generation quality. After the first, standard forward pass, instead of verbalization, last-layer hidden states are fed back as inputs for additional iterations to refine token predictions. Yet we identify a latent overthinking phenomenon: easy token predictions that are already correct after the first pass are sometimes revised into errors in additional iterations. To address this, we propose Think-at-Hard (TaH), a dynamic latent thinking method that iterates deeper only at hard tokens. It employs a lightweight neural decider to trigger latent iterations only at tokens that are likely incorrect after the standard forward pass. During latent iterations, Low-Rank Adaptation (LoRA) modules shift the LLM objective from general next-token prediction to focused hard-token refinement. We further introduce a duo-causal attention mechanism that extends attention from the token sequence dimension to an additional iteration depth dimension. This enables cross-iteration information flow while maintaining full sequential parallelism. Experiments show that TaH boosts LLM reasoning performance across five challenging benchmarks while maintaining the same parameter count. Compared with baselines that iterate twice for all output tokens, TaH delivers 8.1-11.3% accuracy gains while exempting 94% of tokens from the second iteration. Against strong single-iteration Qwen3 models finetuned with the same data, it also delivers 4.0-5.0% accuracy gains. When allowing less than 3% additional parameters from LoRA and the iteration decider, the gains increase to 8.5-12.6% and 5.3-5.4%, respectively. Our code is available at https://github.com/thu-nics/TaH.