ChatPaper.aiChatPaper

Réexamen de l'interpolation de modèles pour un raisonnement efficace

Revisiting Model Interpolation for Efficient Reasoning

October 13, 2025
papers.authors: Taiqiang Wu, Runming Yang, Tao Liu, Jiahao Wang, Ngai Wong
cs.AI

papers.abstract

La fusion de modèles, généralement appliquée aux modèles Instruct et Thinking, a démontré des performances remarquables pour un raisonnement efficace. Dans cet article, nous revisitons systématiquement la méthode de fusion la plus simple qui consiste à interpoler directement deux ensembles de poids. En particulier, nous observons que l'interpolation de modèles suit un paradigme évolutif en trois étapes avec des comportements distincts sur la trajectoire de raisonnement. Ces dynamiques fournissent un guide fondamental pour naviguer le compromis entre performance et coût. Les résultats empiriques montrent qu'un modèle stratégiquement interpolé surpasse de manière surprenante les bases de référence sophistiquées de fusion de modèles, tant en termes d'efficacité que d'efficience. Nous validons en outre nos conclusions par des études d'ablation approfondies sur les couches, modules et stratégies de décodage des modèles. En fin de compte, ce travail démystifie l'interpolation de modèles et propose un cadre pratique pour concevoir des modèles avec des capacités de raisonnement précisément ciblées. Le code est disponible à l'adresse suivante : https://github.com/wutaiqiang/MI{Github}.
English
Model merging, typically on Instruct and Thinking models, has shown remarkable performance for efficient reasoning. In this paper, we systematically revisit the simplest merging method that interpolates two weights directly. Particularly, we observe that model interpolation follows a three-stage evolutionary paradigm with distinct behaviors on the reasoning trajectory. These dynamics provide a principled guide for navigating the performance-cost trade-off. Empirical results demonstrate that a strategically interpolated model surprisingly surpasses sophisticated model merging baselines on both efficiency and effectiveness. We further validate our findings with extensive ablation studies on model layers, modules, and decoding strategies. Ultimately, this work demystifies model interpolation and offers a practical framework for crafting models with precisely targeted reasoning capabilities. Code is available at https://github.com/wutaiqiang/MI{Github}.
PDF86October 16, 2025