ChatPaper.aiChatPaper

R2R : Navigation efficace des chemins de raisonnement divergents grâce au routage de tokens entre modèles petits et grands

R2R: Efficiently Navigating Divergent Reasoning Paths with Small-Large Model Token Routing

May 27, 2025
Auteurs: Tianyu Fu, Yi Ge, Yichen You, Enshu Liu, Zhihang Yuan, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) atteignent des capacités de raisonnement impressionnantes au prix d'une surcharge d'inférence substantielle, posant d'importants défis de déploiement. Bien que les modèles de langage de petite taille (SLMs) distillés améliorent considérablement l'efficacité, leurs performances pâtissent du fait qu'ils ne parviennent pas à suivre les chemins de raisonnement des LLMs. Heureusement, nous révélons que seule une petite fraction des tokens diverge véritablement les chemins de raisonnement entre les LLMs et les SLMs. La plupart des tokens générés sont soit identiques, soit présentent des différences neutres, telles que des variations mineures dans les abréviations ou les expressions. En exploitant cette observation, nous introduisons **Roads to Rome (R2R)**, une méthode de routage neuronal de tokens qui utilise sélectivement les LLMs uniquement pour ces tokens critiques et divergents, tout en laissant la majorité de la génération de tokens au SLM. Nous développons également un pipeline de génération de données automatique qui identifie les tokens divergents et génère des étiquettes de routage au niveau des tokens pour entraîner le routeur léger. Nous appliquons R2R pour combiner les modèles R1-1.5B et R1-32B de la famille DeepSeek, et évaluons sur des benchmarks exigeants en mathématiques, codage et questions-réponses. Avec une taille moyenne de paramètres activés de 5,6 milliards, R2R dépasse la précision moyenne de R1-7B par un facteur de 1,6x, surpassant même le modèle R1-14B. Par rapport à R1-32B, il offre une accélération en temps réel de 2,8x avec des performances comparables, repoussant la frontière de Pareto de l'efficacité de mise à l'échelle en temps de test. Notre code est disponible à l'adresse https://github.com/thu-nics/R2R.
English
Large Language Models (LLMs) achieve impressive reasoning capabilities at the cost of substantial inference overhead, posing substantial deployment challenges. Although distilled Small Language Models (SLMs) significantly enhance efficiency, their performance suffers as they fail to follow LLMs' reasoning paths. Luckily, we reveal that only a small fraction of tokens genuinely diverge reasoning paths between LLMs and SLMs. Most generated tokens are either identical or exhibit neutral differences, such as minor variations in abbreviations or expressions. Leveraging this insight, we introduce **Roads to Rome (R2R)**, a neural token routing method that selectively utilizes LLMs only for these critical, path-divergent tokens, while leaving the majority of token generation to the SLM. We also develop an automatic data generation pipeline that identifies divergent tokens and generates token-level routing labels to train the lightweight router. We apply R2R to combine R1-1.5B and R1-32B models from the DeepSeek family, and evaluate on challenging math, coding, and QA benchmarks. With an average activated parameter size of 5.6B, R2R surpasses the average accuracy of R1-7B by 1.6x, outperforming even the R1-14B model. Compared to R1-32B, it delivers a 2.8x wall-clock speedup with comparable performance, advancing the Pareto frontier of test-time scaling efficiency. Our code is available at https://github.com/thu-nics/R2R.

Summary

AI-Generated Summary

PDF682May 29, 2025