R2R: Efficiënt navigeren door divergente redeneerpaden met tokenroutering tussen kleine en grote modellen
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
May 27, 2025
Auteurs: Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) bereiken indrukwekkende redeneervaardigheden tegen de kosten van aanzienlijke inferentie-overhead, wat aanzienlijke implementatie-uitdagingen met zich meebrengt. Hoewel gedistilleerde Kleine Taalmodellen (SLMs) de efficiëntie aanzienlijk verbeteren, lijdt hun prestaties omdat ze de redeneerpaden van LLMs niet kunnen volgen. Gelukkig laten we zien dat slechts een klein deel van de tokens daadwerkelijk de redeneerpaden tussen LLMs en SLMs divergeert. De meeste gegenereerde tokens zijn ofwel identiek of vertonen neutrale verschillen, zoals kleine variaties in afkortingen of uitdrukkingen. Gebruikmakend van dit inzicht introduceren we **Roads to Rome (R2R)**, een neurale token-routeringsmethode die selectief LLMs gebruikt voor deze kritieke, pad-divergerende tokens, terwijl het merendeel van de token-generatie aan het SLM wordt overgelaten. We ontwikkelen ook een automatische datageneratiepijplijn die divergerende tokens identificeert en token-level routeringslabels genereert om de lichtgewicht router te trainen. We passen R2R toe om de R1-1.5B en R1-32B modellen uit de DeepSeek-familie te combineren, en evalueren op uitdagende wiskunde-, coderings- en QA-benchmarks. Met een gemiddeld geactiveerd parameterformaat van 5.6B overtreft R2R de gemiddelde nauwkeurigheid van R1-7B met 1.6x, en presteert zelfs beter dan het R1-14B model. Vergeleken met R1-32B levert het een 2.8x versnelling in wall-clock tijd met vergelijkbare prestaties, wat de Pareto-grens van test-time schaalbaarheidsefficiëntie vooruit helpt. Onze code is beschikbaar op https://github.com/thu-nics/R2R.
English
Large Language Models (LLMs) achieve impressive reasoning capabilities at the
cost of substantial inference overhead, posing substantial deployment
challenges. Although distilled Small Language Models (SLMs) significantly
enhance efficiency, their performance suffers as they fail to follow LLMs'
reasoning paths. Luckily, we reveal that only a small fraction of tokens
genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens
are either identical or exhibit neutral differences, such as minor variations
in abbreviations or expressions. Leveraging this insight, we introduce **Roads
to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs
only for these critical, path-divergent tokens, while leaving the majority of
token generation to the SLM. We also develop an automatic data generation
pipeline that identifies divergent tokens and generates token-level routing
labels to train the lightweight router. We apply R2R to combine R1-1.5B and
R1-32B models from the DeepSeek family, and evaluate on challenging math,
coding, and QA benchmarks. With an average activated parameter size of 5.6B,
R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the
R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with
comparable performance, advancing the Pareto frontier of test-time scaling
efficiency. Our code is available at https://github.com/thu-nics/R2R.