ChatPaper.aiChatPaper

Revisitando a Interpolação de Modelos para Raciocínio Eficiente

Revisiting Model Interpolation for Efficient Reasoning

October 13, 2025
Autores: Taiqiang Wu, Runming Yang, Tao Liu, Jiahao Wang, Ngai Wong
cs.AI

Resumo

A fusão de modelos, tipicamente em modelos do tipo Instruct e Thinking, tem demonstrado desempenho notável para raciocínio eficiente. Neste artigo, revisitamos sistematicamente o método mais simples de fusão, que interpola diretamente dois conjuntos de pesos. Em particular, observamos que a interpolação de modelos segue um paradigma evolutivo de três estágios com comportamentos distintos na trajetória de raciocínio. Essas dinâmicas fornecem um guia fundamentado para navegar a relação custo-benefício de desempenho. Resultados empíricos demonstram que um modelo estrategicamente interpolado surpreendentemente supera linhas de base sofisticadas de fusão de modelos tanto em eficiência quanto em eficácia. Validamos ainda mais nossas descobertas com extensos estudos de ablação em camadas, módulos e estratégias de decodificação de modelos. Por fim, este trabalho desmistifica a interpolação de modelos e oferece um framework prático para a criação de modelos com capacidades de raciocínio precisamente direcionadas. O código está disponível em https://github.com/wutaiqiang/MI{Github}.
English
Model merging, typically on Instruct and Thinking models, has shown remarkable performance for efficient reasoning. In this paper, we systematically revisit the simplest merging method that interpolates two weights directly. Particularly, we observe that model interpolation follows a three-stage evolutionary paradigm with distinct behaviors on the reasoning trajectory. These dynamics provide a principled guide for navigating the performance-cost trade-off. Empirical results demonstrate that a strategically interpolated model surprisingly surpasses sophisticated model merging baselines on both efficiency and effectiveness. We further validate our findings with extensive ablation studies on model layers, modules, and decoding strategies. Ultimately, this work demystifies model interpolation and offers a practical framework for crafting models with precisely targeted reasoning capabilities. Code is available at https://github.com/wutaiqiang/MI{Github}.
PDF86October 16, 2025