Denk-hard: Selectieve latente iteraties om redeneertaalmodellen te verbeteren
Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
November 11, 2025
Auteurs: Tianyu Fu, Yichen You, Zekai Chen, Guohao Dai, Huazhong Yang, Yu Wang
cs.AI
Samenvatting
Het verbeteren van de redeneervermogens van Large Language Models (LLM's), vooral onder parameterbeperkingen, is cruciaal voor praktijktoepassingen. Eerder werk stelt recurrent transformers voor, die een vast aantal extra iteraties per token toewijzen om de generatiekwaliteit te verbeteren. Na de eerste, standaard forward pass worden de verborgen toestanden van de laatste laag, in plaats van verbalisatie, teruggevoerd als invoer voor aanvullende iteraties om de tokenvoorspellingen te verfijnen. Wij identificeren echter een latent overthinking-fenomeen: eenvoudige tokenvoorspellingen die na de eerste pass reeds correct zijn, worden in aanvullende iteraties soms herzien naar fouten. Om dit aan te pakken, stellen wij Think-at-Hard (TaH) voor, een dynamische latent thinking-methode die alleen dieper itereert bij moeilijke tokens. Het gebruikt een lichtgewicht neural decider om latent iteraties alleen te triggeren bij tokens die na de standaard forward pass waarschijnlijk incorrect zijn. Tijdens latent iteraties verschuiven Low-Rank Adaptation (LoRA)-modules het LLM-doel van algemene volgende-tokenvoorspelling naar gerichte verfijning van moeilijke tokens. Wij introduceren verder een duo-causal attention-mechanisme dat de aandacht uitbreidt van de tokensequentiedimensie naar een aanvullende iteratiedieptedimensie. Dit maakt kruisiteratie-informatieflow mogelijk terwijl volledige sequentiële paralleliteit behouden blijft. Experimenten tonen aan dat TaH de redeneerprestaties van LLM's verbetert op vijf uitdagende benchmarks, terwijl hetzelfde aantal parameters behouden blijft. Vergeleken met baseline-modellen die tweemaal itereren voor alle uitvoertokens, levert TaH 8,1-11,3% nauwkeurigheidswinst op, terwijl 94% van de tokens wordt vrijgesteld van de tweede iteratie. Ten opzichte van sterke enkel-iteratie Qwen3-modellen die met dezelfde data zijn gefinetuned, behaalt het eveneens 4,0-5,0% nauwkeurigheidswinst. Wanneer minder dan 3% extra parameters van LoRA en de iteratiedecider zijn toegestaan, stijgen de winsten respectievelijk naar 8,5-12,6% en 5,3-5,4%. Onze code is beschikbaar op https://github.com/thu-nics/TaH.
English
Improving reasoning capabilities of Large Language Models (LLMs), especially under parameter constraints, is crucial for real-world applications. Prior work proposes recurrent transformers, which allocate a fixed number of extra iterations per token to improve generation quality. After the first, standard forward pass, instead of verbalization, last-layer hidden states are fed back as inputs for additional iterations to refine token predictions. Yet we identify a latent overthinking phenomenon: easy token predictions that are already correct after the first pass are sometimes revised into errors in additional iterations. To address this, we propose Think-at-Hard (TaH), a dynamic latent thinking method that iterates deeper only at hard tokens. It employs a lightweight neural decider to trigger latent iterations only at tokens that are likely incorrect after the standard forward pass. During latent iterations, Low-Rank Adaptation (LoRA) modules shift the LLM objective from general next-token prediction to focused hard-token refinement. We further introduce a duo-causal attention mechanism that extends attention from the token sequence dimension to an additional iteration depth dimension. This enables cross-iteration information flow while maintaining full sequential parallelism. Experiments show that TaH boosts LLM reasoning performance across five challenging benchmarks while maintaining the same parameter count. Compared with baselines that iterate twice for all output tokens, TaH delivers 8.1-11.3% accuracy gains while exempting 94% of tokens from the second iteration. Against strong single-iteration Qwen3 models finetuned with the same data, it also delivers 4.0-5.0% accuracy gains. When allowing less than 3% additional parameters from LoRA and the iteration decider, the gains increase to 8.5-12.6% and 5.3-5.4%, respectively. Our code is available at https://github.com/thu-nics/TaH.