Пересмотр интерполяции моделей для эффективного вывода
Revisiting Model Interpolation for Efficient Reasoning
October 13, 2025
Авторы: Taiqiang Wu, Runming Yang, Tao Liu, Jiahao Wang, Ngai Wong
cs.AI
Аннотация
Слияние моделей, особенно в случае Instruct и Thinking моделей, продемонстрировало впечатляющую производительность для эффективного рассуждения. В данной работе мы систематически возвращаемся к простейшему методу слияния, который напрямую интерполирует два набора весов. В частности, мы наблюдаем, что интерполяция моделей следует трехэтапной эволюционной парадигме с различными поведенческими характеристиками на траектории рассуждения. Эти динамики предоставляют принципиальное руководство для навигации в компромиссе между производительностью и затратами. Эмпирические результаты показывают, что стратегически интерполированная модель неожиданно превосходит сложные базовые методы слияния моделей как по эффективности, так и по результативности. Мы дополнительно подтверждаем наши выводы с помощью обширных исследований абляции на уровнях моделей, модулях и стратегиях декодирования. В конечном итоге, эта работа раскрывает суть интерполяции моделей и предлагает практическую основу для создания моделей с точно заданными возможностями рассуждения. Код доступен по адресу https://github.com/wutaiqiang/MI{Github}.
English
Model merging, typically on Instruct and Thinking models, has shown
remarkable performance for efficient reasoning. In this paper, we
systematically revisit the simplest merging method that interpolates two
weights directly. Particularly, we observe that model interpolation follows a
three-stage evolutionary paradigm with distinct behaviors on the reasoning
trajectory. These dynamics provide a principled guide for navigating the
performance-cost trade-off. Empirical results demonstrate that a strategically
interpolated model surprisingly surpasses sophisticated model merging baselines
on both efficiency and effectiveness. We further validate our findings with
extensive ablation studies on model layers, modules, and decoding strategies.
Ultimately, this work demystifies model interpolation and offers a practical
framework for crafting models with precisely targeted reasoning capabilities.
Code is available at https://github.com/wutaiqiang/MI{Github}.