Pensar a Fondo: Iteraciones Latentes Selectivas para Mejorar Modelos de Lenguaje de Razonamiento
Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models
November 11, 2025
Autores: Tianyu Fu, Yichen You, Zekai Chen, Guohao Dai, Huazhong Yang, Yu Wang
cs.AI
Resumen
Mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs), especialmente bajo restricciones de parámetros, es crucial para aplicaciones del mundo real. Trabajos previos proponen transformadores recurrentes, que asignan un número fijo de iteraciones adicionales por token para mejorar la calidad de la generación. Después de la primera pasada estándar, en lugar de verbalizar, los estados ocultos de la última capa se retroalimentan como entradas para iteraciones adicionales y así refinar las predicciones de tokens. Sin embargo, identificamos un fenómeno de sobrepensamiento latente: predicciones de tokens fáciles que ya son correctas después de la primera pasada a veces se revisan y convierten en errores en iteraciones adicionales. Para abordar esto, proponemos Think-at-Hard (TaH), un método de pensamiento latente dinámico que itera más profundamente solo en los tokens difíciles. Emplea un decisor neuronal ligero para activar iteraciones latentes solo en tokens que probablemente sean incorrectos después de la pasada estándar. Durante las iteraciones latentes, los módulos de Adaptación de Bajo Rango (LoRA) cambian el objetivo del LLM de la predicción general del siguiente token al refinamiento enfocado de tokens difíciles. Además, introducimos un mecanismo de atención causal doble que extiende la atención desde la dimensión de secuencia de tokens a una dimensión adicional de profundidad de iteración. Esto permite el flujo de información entre iteraciones manteniendo el paralelismo secuencial completo. Los experimentos muestran que TaH mejora el rendimiento de razonamiento de los LLMs en cinco benchmarks desafiantes manteniendo el mismo recuento de parámetros. En comparación con líneas base que iteran dos veces para todos los tokens de salida, TaH ofrece ganancias de precisión del 8.1-11.3% mientras exime al 94% de los tokens de la segunda iteración. Frente a los fuertes modelos Qwen3 de iteración única ajustados con los mismos datos, también ofrece ganancias de precisión del 4.0-5.0%. Cuando se permiten menos del 3% de parámetros adicionales de LoRA y el decisor de iteración, las ganancias aumentan al 8.5-12.6% y 5.3-5.4%, respectivamente. Nuestro código está disponible en https://github.com/thu-nics/TaH.
English
Improving reasoning capabilities of Large Language Models (LLMs), especially under parameter constraints, is crucial for real-world applications. Prior work proposes recurrent transformers, which allocate a fixed number of extra iterations per token to improve generation quality. After the first, standard forward pass, instead of verbalization, last-layer hidden states are fed back as inputs for additional iterations to refine token predictions. Yet we identify a latent overthinking phenomenon: easy token predictions that are already correct after the first pass are sometimes revised into errors in additional iterations. To address this, we propose Think-at-Hard (TaH), a dynamic latent thinking method that iterates deeper only at hard tokens. It employs a lightweight neural decider to trigger latent iterations only at tokens that are likely incorrect after the standard forward pass. During latent iterations, Low-Rank Adaptation (LoRA) modules shift the LLM objective from general next-token prediction to focused hard-token refinement. We further introduce a duo-causal attention mechanism that extends attention from the token sequence dimension to an additional iteration depth dimension. This enables cross-iteration information flow while maintaining full sequential parallelism. Experiments show that TaH boosts LLM reasoning performance across five challenging benchmarks while maintaining the same parameter count. Compared with baselines that iterate twice for all output tokens, TaH delivers 8.1-11.3% accuracy gains while exempting 94% of tokens from the second iteration. Against strong single-iteration Qwen3 models finetuned with the same data, it also delivers 4.0-5.0% accuracy gains. When allowing less than 3% additional parameters from LoRA and the iteration decider, the gains increase to 8.5-12.6% and 5.3-5.4%, respectively. Our code is available at https://github.com/thu-nics/TaH.