Пересмотр интерполяции моделей для эффективного вывода

Аннотация

Слияние моделей, особенно в случае Instruct и Thinking моделей, продемонстрировало впечатляющую производительность для эффективного рассуждения. В данной работе мы систематически возвращаемся к простейшему методу слияния, который напрямую интерполирует два набора весов. В частности, мы наблюдаем, что интерполяция моделей следует трехэтапной эволюционной парадигме с различными поведенческими характеристиками на траектории рассуждения. Эти динамики предоставляют принципиальное руководство для навигации в компромиссе между производительностью и затратами. Эмпирические результаты показывают, что стратегически интерполированная модель неожиданно превосходит сложные базовые методы слияния моделей как по эффективности, так и по результативности. Мы дополнительно подтверждаем наши выводы с помощью обширных исследований абляции на уровнях моделей, модулях и стратегиях декодирования. В конечном итоге, эта работа раскрывает суть интерполяции моделей и предлагает практическую основу для создания моделей с точно заданными возможностями рассуждения. Код доступен по адресу https://github.com/wutaiqiang/MI{Github}.

English

Model merging, typically on Instruct and Thinking models, has shown remarkable performance for efficient reasoning. In this paper, we systematically revisit the simplest merging method that interpolates two weights directly. Particularly, we observe that model interpolation follows a three-stage evolutionary paradigm with distinct behaviors on the reasoning trajectory. These dynamics provide a principled guide for navigating the performance-cost trade-off. Empirical results demonstrate that a strategically interpolated model surprisingly surpasses sophisticated model merging baselines on both efficiency and effectiveness. We further validate our findings with extensive ablation studies on model layers, modules, and decoding strategies. Ultimately, this work demystifies model interpolation and offers a practical framework for crafting models with precisely targeted reasoning capabilities. Code is available at https://github.com/wutaiqiang/MI{Github}.

Пересмотр интерполяции моделей для эффективного вывода

Revisiting Model Interpolation for Efficient Reasoning

Аннотация

Support