Revisitando la Interpolación de Modelos para un Razonamiento Eficiente
Revisiting Model Interpolation for Efficient Reasoning
October 13, 2025
Autores: Taiqiang Wu, Runming Yang, Tao Liu, Jiahao Wang, Ngai Wong
cs.AI
Resumen
La fusión de modelos, típicamente en modelos Instruct y Thinking, ha demostrado un rendimiento notable para el razonamiento eficiente. En este artículo, revisamos sistemáticamente el método de fusión más simple que interpola dos pesos directamente. En particular, observamos que la interpolación de modelos sigue un paradigma evolutivo de tres etapas con comportamientos distintos en la trayectoria de razonamiento. Estas dinámicas proporcionan una guía fundamentada para navegar el equilibrio entre rendimiento y costo. Los resultados empíricos demuestran que un modelo interpolado estratégicamente supera sorprendentemente a las líneas base de fusión de modelos sofisticadas tanto en eficiencia como en efectividad. Validamos aún más nuestros hallazgos con extensos estudios de ablación en capas, módulos y estrategias de decodificación del modelo. En última instancia, este trabajo desmitifica la interpolación de modelos y ofrece un marco práctico para diseñar modelos con capacidades de razonamiento precisamente dirigidas. El código está disponible en https://github.com/wutaiqiang/MI{Github}.
English
Model merging, typically on Instruct and Thinking models, has shown
remarkable performance for efficient reasoning. In this paper, we
systematically revisit the simplest merging method that interpolates two
weights directly. Particularly, we observe that model interpolation follows a
three-stage evolutionary paradigm with distinct behaviors on the reasoning
trajectory. These dynamics provide a principled guide for navigating the
performance-cost trade-off. Empirical results demonstrate that a strategically
interpolated model surprisingly surpasses sophisticated model merging baselines
on both efficiency and effectiveness. We further validate our findings with
extensive ablation studies on model layers, modules, and decoding strategies.
Ultimately, this work demystifies model interpolation and offers a practical
framework for crafting models with precisely targeted reasoning capabilities.
Code is available at https://github.com/wutaiqiang/MI{Github}.