ThinkRouter: Ragionamento Efficiente tramite Instradamento del Pensiero tra Spazi Latenti e Discreti

Abstract

I lavori recenti esplorano il ragionamento latente per migliorare l'efficienza del ragionamento sostituendo le traiettorie di ragionamento esplicito con rappresentazioni continue in uno spazio latente, sebbene la sua efficacia vari a seconda dei contesti. L'analisi delle dinamiche di confidenza del modello sotto ragionamento latente rivela che le traiettorie di pensiero che terminano con risposte errate contengono meno passaggi a bassa confidenza rispetto a quelle che terminano con risposte corrette. Nel frattempo, suggeriamo che gli embedding soft aggregati da molteplici alternative di pensiero a bassa confidenza possano introdurre e propagare rumore, portando a un'elevata confidenza in traiettorie di ragionamento inaffidabili. Motivati da queste osservazioni, viene proposto ThinkRouter, un meccanismo di routing consapevole della confidenza al momento dell'inferenza, per evitare un'elevata confidenza e il rumore per un ragionamento efficiente. ThinkRouter instrada il pensiero verso lo spazio discreto dei token quando la confidenza del modello è bassa, e verso lo spazio latente altrimenti. Esperimenti estesi su benchmark di ragionamento STEM e di coding attraverso vari modelli di ragionamento di grandi dimensioni dimostrano che ThinkRouter supera le baseline di CoT esplicito, routing casuale e ragionamento latente in termini di accuratezza, raggiungendo un miglioramento medio di 19,70 punti in Pass@1, riducendo contemporaneamente la lunghezza della generazione fino al 15,55%. Un'ulteriore analisi completa rivela che ThinkRouter può calibrare gli errori derivanti dal CoT esplicito e dal ragionamento latente e accelera la generazione del token di fine pensiero abbassando globalmente la confidenza del modello.

English

Recent work explores latent reasoning to improve reasoning efficiency by replacing explicit reasoning trajectories with continuous representations in a latent space, yet its effectiveness varies across settings. Analysis of model confidence dynamics under latent reasoning reveals that thinking trajectories ending in incorrect answers contain fewer low-confidence steps than those ending in correct answers. Meanwhile, we suggest that soft embeddings aggregated by multiple low-confidence thinking alternatives may introduce and propagate noise, leading to high confidence in unreliable reasoning trajectories. Motivated by these observations, ThinkRouter, an inference-time confidence-aware routing mechanism is proposed to avoid high confidence and noise for efficient reasoning. ThinkRouter routes thinking to the discrete token space when model confidence is low, and to the latent space otherwise. Extensive experiments on STEM reasoning and coding benchmarks across diverse large reasoning models demonstrate that ThinkRouter outperforms explicit CoT, random routing, and latent reasoning baselines in terms of accuracy, achieving an average improvement of 19.70 points in Pass@1, while reducing generation length by up to 15.55%. Further comprehensive analysis reveals that ThinkRouter can calibrate errors arising from explicit CoT and latent reasoning, and accelerates end-of-thinking token generation by globally lowering model confidence.

ThinkRouter: Ragionamento Efficiente tramite Instradamento del Pensiero tra Spazi Latenti e Discreti

ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

Abstract

Support