R2R: Navegação Eficiente em Caminhos de Raciocínio Divergentes com Roteamento de Tokens entre Modelos Pequenos e Grandes
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
May 27, 2025
Autores: Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) alcançam capacidades impressionantes de raciocínio ao custo de uma sobrecarga substancial de inferência, o que representa desafios significativos de implantação. Embora os Modelos de Linguagem Pequenos (SLMs) destilados melhorem significativamente a eficiência, seu desempenho sofre, pois não conseguem seguir os caminhos de raciocínio dos LLMs. Felizmente, revelamos que apenas uma pequena fração de tokens realmente diverge os caminhos de raciocínio entre LLMs e SLMs. A maioria dos tokens gerados são idênticos ou exibem diferenças neutras, como pequenas variações em abreviações ou expressões. Aproveitando essa percepção, introduzimos **Roads to Rome (R2R)**, um método de roteamento neural de tokens que utiliza seletivamente LLMs apenas para esses tokens críticos e divergentes, enquanto deixa a maior parte da geração de tokens para o SLM. Também desenvolvemos um pipeline automático de geração de dados que identifica tokens divergentes e gera rótulos de roteamento em nível de token para treinar o roteador leve. Aplicamos o R2R para combinar os modelos R1-1.5B e R1-32B da família DeepSeek, e avaliamos em benchmarks desafiadores de matemática, codificação e Q&A. Com um tamanho médio de parâmetros ativados de 5.6B, o R2R supera a precisão média do R1-7B em 1.6x, superando até mesmo o modelo R1-14B. Em comparação com o R1-32B, ele oferece uma aceleração de 2.8x no tempo de execução com desempenho comparável, avançando a fronteira de Pareto da eficiência de escalonamento em tempo de teste. Nosso código está disponível em https://github.com/thu-nics/R2R.
English
Large Language Models (LLMs) achieve impressive reasoning capabilities at the
cost of substantial inference overhead, posing substantial deployment
challenges. Although distilled Small Language Models (SLMs) significantly
enhance efficiency, their performance suffers as they fail to follow LLMs'
reasoning paths. Luckily, we reveal that only a small fraction of tokens
genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens
are either identical or exhibit neutral differences, such as minor variations
in abbreviations or expressions. Leveraging this insight, we introduce **Roads
to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs
only for these critical, path-divergent tokens, while leaving the majority of
token generation to the SLM. We also develop an automatic data generation
pipeline that identifies divergent tokens and generates token-level routing
labels to train the lightweight router. We apply R2R to combine R1-1.5B and
R1-32B models from the DeepSeek family, and evaluate on challenging math,
coding, and QA benchmarks. With an average activated parameter size of 5.6B,
R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the
R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with
comparable performance, advancing the Pareto frontier of test-time scaling
efficiency. Our code is available at https://github.com/thu-nics/R2R.