R2R: Navigazione Efficiente di Percorsi di Ragionamento Divergenti con l'Instradamento di Token Modello Piccolo-Grande
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
May 27, 2025
Autori: Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
cs.AI
Abstract
I Large Language Models (LLM) raggiungono impressionanti capacità di ragionamento al costo di un sovraccarico computazionale significativo, rappresentando una sfida sostanziale per il loro dispiegamento. Sebbene i Small Language Models (SLM) distillati migliorino notevolmente l'efficienza, le loro prestazioni ne risentono poiché non riescono a seguire i percorsi di ragionamento degli LLM. Fortunatamente, abbiamo scoperto che solo una piccola frazione di token effettivamente diverge i percorsi di ragionamento tra LLM e SLM. La maggior parte dei token generati sono identici o presentano differenze neutre, come variazioni minori nelle abbreviazioni o nelle espressioni. Sfruttando questa intuizione, introduciamo **Roads to Rome (R2R)**, un metodo di routing neurale dei token che utilizza selettivamente gli LLM solo per questi token critici e divergenti, lasciando la maggior parte della generazione dei token allo SLM. Abbiamo anche sviluppato una pipeline automatica di generazione dati che identifica i token divergenti e genera etichette di routing a livello di token per addestrare il router leggero. Applichiamo R2R per combinare i modelli R1-1.5B e R1-32B della famiglia DeepSeek, e valutiamo su benchmark impegnativi di matematica, codifica e QA. Con una dimensione media dei parametri attivati di 5.6B, R2R supera l'accuratezza media di R1-7B di 1.6x, superando persino il modello R1-14B. Rispetto a R1-32B, offre un'accelerazione del tempo di esecuzione di 2.8x con prestazioni comparabili, avanzando la frontiera di Pareto dell'efficienza di scalabilità in fase di test. Il nostro codice è disponibile all'indirizzo https://github.com/thu-nics/R2R.
English
Large Language Models (LLMs) achieve impressive reasoning capabilities at the
cost of substantial inference overhead, posing substantial deployment
challenges. Although distilled Small Language Models (SLMs) significantly
enhance efficiency, their performance suffers as they fail to follow LLMs'
reasoning paths. Luckily, we reveal that only a small fraction of tokens
genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens
are either identical or exhibit neutral differences, such as minor variations
in abbreviations or expressions. Leveraging this insight, we introduce **Roads
to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs
only for these critical, path-divergent tokens, while leaving the majority of
token generation to the SLM. We also develop an automatic data generation
pipeline that identifies divergent tokens and generates token-level routing
labels to train the lightweight router. We apply R2R to combine R1-1.5B and
R1-32B models from the DeepSeek family, and evaluate on challenging math,
coding, and QA benchmarks. With an average activated parameter size of 5.6B,
R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the
R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with
comparable performance, advancing the Pareto frontier of test-time scaling
efficiency. Our code is available at https://github.com/thu-nics/R2R.