ThinkRouter: Razonamiento eficiente mediante el enrutamiento del pensamiento entre espacios latentes y discretos

Resumen

Trabajos recientes exploran el razonamiento latente para mejorar la eficiencia del razonamiento sustituyendo las trayectorias de razonamiento explícito por representaciones continuas en un espacio latente, aunque su efectividad varía según los entornos. El análisis de la dinámica de la confianza del modelo bajo razonamiento latente revela que las trayectorias de pensamiento que terminan en respuestas incorrectas contienen menos pasos de baja confianza que aquellas que terminan en respuestas correctas. Paralelamente, sugerimos que las incrustaciones blandas agregadas por múltiples alternativas de pensamiento de baja confianza pueden introducir y propagar ruido, conduciendo a una alta confianza en trayectorias de razonamiento no confiables. Motivados por estas observaciones, se propone ThinkRouter, un mecanismo de enrutamiento consciente de la confianza durante la inferencia, para evitar alta confianza y ruido en pos de un razonamiento eficiente. ThinkRouter dirige el pensamiento al espacio discreto de tokens cuando la confianza del modelo es baja, y al espacio latente en caso contrario. Experimentos exhaustivos en benchmarks de razonamiento STEM y codificación, utilizando diversos modelos de razonamiento grande, demuestran que ThinkRouter supera a las líneas base de Cadena de Pensamiento (CoT) explícita, enrutamiento aleatorio y razonamiento latente en términos de precisión, logrando una mejora promedio de 19.70 puntos en Pass@1, mientras reduce la longitud de la generación hasta en un 15.55%. Un análisis integral adicional revela que ThinkRouter puede calibrar los errores surgidos del CoT explícito y del razonamiento latente, y acelera la generación del token de fin de pensamiento al reducir globalmente la confianza del modelo.

English

Recent work explores latent reasoning to improve reasoning efficiency by replacing explicit reasoning trajectories with continuous representations in a latent space, yet its effectiveness varies across settings. Analysis of model confidence dynamics under latent reasoning reveals that thinking trajectories ending in incorrect answers contain fewer low-confidence steps than those ending in correct answers. Meanwhile, we suggest that soft embeddings aggregated by multiple low-confidence thinking alternatives may introduce and propagate noise, leading to high confidence in unreliable reasoning trajectories. Motivated by these observations, ThinkRouter, an inference-time confidence-aware routing mechanism is proposed to avoid high confidence and noise for efficient reasoning. ThinkRouter routes thinking to the discrete token space when model confidence is low, and to the latent space otherwise. Extensive experiments on STEM reasoning and coding benchmarks across diverse large reasoning models demonstrate that ThinkRouter outperforms explicit CoT, random routing, and latent reasoning baselines in terms of accuracy, achieving an average improvement of 19.70 points in Pass@1, while reducing generation length by up to 15.55%. Further comprehensive analysis reveals that ThinkRouter can calibrate errors arising from explicit CoT and latent reasoning, and accelerates end-of-thinking token generation by globally lowering model confidence.

ThinkRouter: Razonamiento eficiente mediante el enrutamiento del pensamiento entre espacios latentes y discretos

ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

Resumen

Support