Taglia le Perdite! Imparare a Potare i Percorsi Precocemente per un Ragionamento Parallelo Efficiente
Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning
April 17, 2026
Autori: Jiaxi Bi, Tongxu Luo, Wenyu Du, Zhengyang Tang, Benyou Wang
cs.AI
Abstract
Il ragionamento parallelo potenzia i Large Reasoning Models (LRM) ma comporta costi proibitivi a causa di percorsi infruttuosi generati da errori precoci. Per mitigare questo problema, la potatura dei percorsi a livello di prefisso è essenziale, ma la ricerca esistente rimane frammentata senza un quadro standardizzato. In questo lavoro, proponiamo la prima tassonomia sistematica della potatura dei percorsi, classificando i metodi in base alla fonte del segnale (interna vs. esterna) e alla apprendibilità (apprendibile vs. non apprendibile). Questa classificazione rivela il potenziale inesplorato dei metodi interni apprendibili, motivando la nostra proposta di STOP (Super Token for Pruning). Valutazioni estensive su LRM con parametri da 1,5 a 20 miliardi dimostrano che STOP raggiunge un'efficacia e un'efficienza superiori rispetto ai baseline esistenti. Inoltre, convalidiamo rigorosamente la scalabilità di STOP sotto diversi budget computazionali - ad esempio, aumentando l'accuratezza di GPT-OSS-20B su AIME25 dall'84% a quasi il 90% a budget computazionali fissi. Infine, distilliamo i nostri risultati in linee guida empiriche formalizzate per facilitare la distribuzione ottimale nel mondo reale. Codice, dati e modelli sono disponibili su https://bijiaxihh.github.io/STOP.
English
Parallel reasoning enhances Large Reasoning Models (LRMs) but incurs prohibitive costs due to futile paths caused by early errors. To mitigate this, path pruning at the prefix level is essential, yet existing research remains fragmented without a standardized framework. In this work, we propose the first systematic taxonomy of path pruning, categorizing methods by their signal source (internal vs. external) and learnability (learnable vs. non-learnable). This classification reveals the unexplored potential of learnable internal methods, motivating our proposal of STOP (Super TOken for Pruning). Extensive evaluations across LRMs ranging from 1.5B to 20B parameters demonstrate that STOP achieves superior effectiveness and efficiency compared to existing baselines. Furthermore, we rigorously validate the scalability of STOP under varying compute budgets - for instance, boosting GPT-OSS-20B accuracy on AIME25 from 84% to nearly 90% under fixed compute budgets. Finally, we distill our findings into formalized empirical guidelines to facilitate optimal real-world deployment. Code, data and models are available at https://bijiaxihh.github.io/STOP