R2R: Navegação Eficiente em Caminhos de Raciocínio Divergentes com Roteamento de Tokens entre Modelos Pequenos e Grandes

Resumo

Modelos de Linguagem de Grande Escala (LLMs) alcançam capacidades impressionantes de raciocínio ao custo de uma sobrecarga substancial de inferência, o que representa desafios significativos de implantação. Embora os Modelos de Linguagem Pequenos (SLMs) destilados melhorem significativamente a eficiência, seu desempenho sofre, pois não conseguem seguir os caminhos de raciocínio dos LLMs. Felizmente, revelamos que apenas uma pequena fração de tokens realmente diverge os caminhos de raciocínio entre LLMs e SLMs. A maioria dos tokens gerados são idênticos ou exibem diferenças neutras, como pequenas variações em abreviações ou expressões. Aproveitando essa percepção, introduzimos **Roads to Rome (R2R)**, um método de roteamento neural de tokens que utiliza seletivamente LLMs apenas para esses tokens críticos e divergentes, enquanto deixa a maior parte da geração de tokens para o SLM. Também desenvolvemos um pipeline automático de geração de dados que identifica tokens divergentes e gera rótulos de roteamento em nível de token para treinar o roteador leve. Aplicamos o R2R para combinar os modelos R1-1.5B e R1-32B da família DeepSeek, e avaliamos em benchmarks desafiadores de matemática, codificação e Q&A. Com um tamanho médio de parâmetros ativados de 5.6B, o R2R supera a precisão média do R1-7B em 1.6x, superando até mesmo o modelo R1-14B. Em comparação com o R1-32B, ele oferece uma aceleração de 2.8x no tempo de execução com desempenho comparável, avançando a fronteira de Pareto da eficiência de escalonamento em tempo de teste. Nosso código está disponível em https://github.com/thu-nics/R2R.

English

Large Language Models (LLMs) achieve impressive reasoning capabilities at the cost of substantial inference overhead, posing substantial deployment challenges. Although distilled Small Language Models (SLMs) significantly enhance efficiency, their performance suffers as they fail to follow LLMs' reasoning paths. Luckily, we reveal that only a small fraction of tokens genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens are either identical or exhibit neutral differences, such as minor variations in abbreviations or expressions. Leveraging this insight, we introduce **Roads to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs only for these critical, path-divergent tokens, while leaving the majority of token generation to the SLM. We also develop an automatic data generation pipeline that identifies divergent tokens and generates token-level routing labels to train the lightweight router. We apply R2R to combine R1-1.5B and R1-32B models from the DeepSeek family, and evaluate on challenging math, coding, and QA benchmarks. With an average activated parameter size of 5.6B, R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with comparable performance, advancing the Pareto frontier of test-time scaling efficiency. Our code is available at https://github.com/thu-nics/R2R.

R2R: Navegação Eficiente em Caminhos de Raciocínio Divergentes com Roteamento de Tokens entre Modelos Pequenos e Grandes

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

Resumo

Support