R2R : Navigation efficace des chemins de raisonnement divergents grâce au routage de tokens entre modèles petits et grands
R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing
May 27, 2025
Auteurs: Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) atteignent des capacités de raisonnement impressionnantes au prix d'une surcharge d'inférence substantielle, posant d'importants défis de déploiement. Bien que les modèles de langage de petite taille (SLMs) distillés améliorent considérablement l'efficacité, leurs performances pâtissent du fait qu'ils ne parviennent pas à suivre les chemins de raisonnement des LLMs. Heureusement, nous révélons que seule une petite fraction des tokens diverge véritablement les chemins de raisonnement entre les LLMs et les SLMs. La plupart des tokens générés sont soit identiques, soit présentent des différences neutres, telles que des variations mineures dans les abréviations ou les expressions. En exploitant cette observation, nous introduisons **Roads to Rome (R2R)**, une méthode de routage neuronal de tokens qui utilise sélectivement les LLMs uniquement pour ces tokens critiques et divergents, tout en laissant la majorité de la génération de tokens au SLM. Nous développons également un pipeline de génération de données automatique qui identifie les tokens divergents et génère des étiquettes de routage au niveau des tokens pour entraîner le routeur léger. Nous appliquons R2R pour combiner les modèles R1-1.5B et R1-32B de la famille DeepSeek, et évaluons sur des benchmarks exigeants en mathématiques, codage et questions-réponses. Avec une taille moyenne de paramètres activés de 5,6 milliards, R2R dépasse la précision moyenne de R1-7B par un facteur de 1,6x, surpassant même le modèle R1-14B. Par rapport à R1-32B, il offre une accélération en temps réel de 2,8x avec des performances comparables, repoussant la frontière de Pareto de l'efficacité de mise à l'échelle en temps de test. Notre code est disponible à l'adresse https://github.com/thu-nics/R2R.
English
Large Language Models (LLMs) achieve impressive reasoning capabilities at the
cost of substantial inference overhead, posing substantial deployment
challenges. Although distilled Small Language Models (SLMs) significantly
enhance efficiency, their performance suffers as they fail to follow LLMs'
reasoning paths. Luckily, we reveal that only a small fraction of tokens
genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens
are either identical or exhibit neutral differences, such as minor variations
in abbreviations or expressions. Leveraging this insight, we introduce **Roads
to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs
only for these critical, path-divergent tokens, while leaving the majority of
token generation to the SLM. We also develop an automatic data generation
pipeline that identifies divergent tokens and generates token-level routing
labels to train the lightweight router. We apply R2R to combine R1-1.5B and
R1-32B models from the DeepSeek family, and evaluate on challenging math,
coding, and QA benchmarks. With an average activated parameter size of 5.6B,
R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the
R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with
comparable performance, advancing the Pareto frontier of test-time scaling
efficiency. Our code is available at https://github.com/thu-nics/R2R.Summary
AI-Generated Summary