R2R: Navigazione Efficiente di Percorsi di Ragionamento Divergenti con l'Instradamento di Token Modello Piccolo-Grande

Abstract

I Large Language Models (LLM) raggiungono impressionanti capacità di ragionamento al costo di un sovraccarico computazionale significativo, rappresentando una sfida sostanziale per il loro dispiegamento. Sebbene i Small Language Models (SLM) distillati migliorino notevolmente l'efficienza, le loro prestazioni ne risentono poiché non riescono a seguire i percorsi di ragionamento degli LLM. Fortunatamente, abbiamo scoperto che solo una piccola frazione di token effettivamente diverge i percorsi di ragionamento tra LLM e SLM. La maggior parte dei token generati sono identici o presentano differenze neutre, come variazioni minori nelle abbreviazioni o nelle espressioni. Sfruttando questa intuizione, introduciamo **Roads to Rome (R2R)**, un metodo di routing neurale dei token che utilizza selettivamente gli LLM solo per questi token critici e divergenti, lasciando la maggior parte della generazione dei token allo SLM. Abbiamo anche sviluppato una pipeline automatica di generazione dati che identifica i token divergenti e genera etichette di routing a livello di token per addestrare il router leggero. Applichiamo R2R per combinare i modelli R1-1.5B e R1-32B della famiglia DeepSeek, e valutiamo su benchmark impegnativi di matematica, codifica e QA. Con una dimensione media dei parametri attivati di 5.6B, R2R supera l'accuratezza media di R1-7B di 1.6x, superando persino il modello R1-14B. Rispetto a R1-32B, offre un'accelerazione del tempo di esecuzione di 2.8x con prestazioni comparabili, avanzando la frontiera di Pareto dell'efficienza di scalabilità in fase di test. Il nostro codice è disponibile all'indirizzo https://github.com/thu-nics/R2R.

English

Large Language Models (LLMs) achieve impressive reasoning capabilities at the cost of substantial inference overhead, posing substantial deployment challenges. Although distilled Small Language Models (SLMs) significantly enhance efficiency, their performance suffers as they fail to follow LLMs' reasoning paths. Luckily, we reveal that only a small fraction of tokens genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens are either identical or exhibit neutral differences, such as minor variations in abbreviations or expressions. Leveraging this insight, we introduce **Roads to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs only for these critical, path-divergent tokens, while leaving the majority of token generation to the SLM. We also develop an automatic data generation pipeline that identifies divergent tokens and generates token-level routing labels to train the lightweight router. We apply R2R to combine R1-1.5B and R1-32B models from the DeepSeek family, and evaluate on challenging math, coding, and QA benchmarks. With an average activated parameter size of 5.6B, R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with comparable performance, advancing the Pareto frontier of test-time scaling efficiency. Our code is available at https://github.com/thu-nics/R2R.

R2R: Navigazione Efficiente di Percorsi di Ragionamento Divergenti con l'Instradamento di Token Modello Piccolo-Grande

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

Abstract

Support