R2R: Efficiënt navigeren door divergente redeneerpaden met tokenroutering tussen kleine en grote modellen

Samenvatting

Grote Taalmodellen (LLMs) bereiken indrukwekkende redeneervaardigheden tegen de kosten van aanzienlijke inferentie-overhead, wat aanzienlijke implementatie-uitdagingen met zich meebrengt. Hoewel gedistilleerde Kleine Taalmodellen (SLMs) de efficiëntie aanzienlijk verbeteren, lijdt hun prestaties omdat ze de redeneerpaden van LLMs niet kunnen volgen. Gelukkig laten we zien dat slechts een klein deel van de tokens daadwerkelijk de redeneerpaden tussen LLMs en SLMs divergeert. De meeste gegenereerde tokens zijn ofwel identiek of vertonen neutrale verschillen, zoals kleine variaties in afkortingen of uitdrukkingen. Gebruikmakend van dit inzicht introduceren we **Roads to Rome (R2R)**, een neurale token-routeringsmethode die selectief LLMs gebruikt voor deze kritieke, pad-divergerende tokens, terwijl het merendeel van de token-generatie aan het SLM wordt overgelaten. We ontwikkelen ook een automatische datageneratiepijplijn die divergerende tokens identificeert en token-level routeringslabels genereert om de lichtgewicht router te trainen. We passen R2R toe om de R1-1.5B en R1-32B modellen uit de DeepSeek-familie te combineren, en evalueren op uitdagende wiskunde-, coderings- en QA-benchmarks. Met een gemiddeld geactiveerd parameterformaat van 5.6B overtreft R2R de gemiddelde nauwkeurigheid van R1-7B met 1.6x, en presteert zelfs beter dan het R1-14B model. Vergeleken met R1-32B levert het een 2.8x versnelling in wall-clock tijd met vergelijkbare prestaties, wat de Pareto-grens van test-time schaalbaarheidsefficiëntie vooruit helpt. Onze code is beschikbaar op https://github.com/thu-nics/R2R.

English

Large Language Models (LLMs) achieve impressive reasoning capabilities at the cost of substantial inference overhead, posing substantial deployment challenges. Although distilled Small Language Models (SLMs) significantly enhance efficiency, their performance suffers as they fail to follow LLMs' reasoning paths. Luckily, we reveal that only a small fraction of tokens genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens are either identical or exhibit neutral differences, such as minor variations in abbreviations or expressions. Leveraging this insight, we introduce **Roads to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs only for these critical, path-divergent tokens, while leaving the majority of token generation to the SLM. We also develop an automatic data generation pipeline that identifies divergent tokens and generates token-level routing labels to train the lightweight router. We apply R2R to combine R1-1.5B and R1-32B models from the DeepSeek family, and evaluate on challenging math, coding, and QA benchmarks. With an average activated parameter size of 5.6B, R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with comparable performance, advancing the Pareto frontier of test-time scaling efficiency. Our code is available at https://github.com/thu-nics/R2R.

R2R: Efficiënt navigeren door divergente redeneerpaden met tokenroutering tussen kleine en grote modellen

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

Samenvatting

Support