ChatPaper.aiChatPaper

효율적인 추론을 위한 모델 보간법 재고찰

Revisiting Model Interpolation for Efficient Reasoning

October 13, 2025
저자: Taiqiang Wu, Runming Yang, Tao Liu, Jiahao Wang, Ngai Wong
cs.AI

초록

모델 병합, 특히 Instruct 및 Thinking 모델에서의 병합은 효율적인 추론을 위해 뛰어난 성능을 보여왔습니다. 본 논문에서는 두 가중치를 직접 보간하는 가장 간단한 병합 방법을 체계적으로 재검토합니다. 특히, 모델 보간이 추론 궤적에서 뚜렷한 행동을 보이는 세 단계의 진화 패러다임을 따르는 것을 관찰했습니다. 이러한 역학은 성능과 비용 간의 트레이드오프를 탐색하는 데 원칙적인 가이드를 제공합니다. 실험 결과, 전략적으로 보간된 모델이 복잡한 모델 병합 베이스라인을 효율성과 효과성 모두에서 의외로 능가하는 것으로 나타났습니다. 우리는 모델 레이어, 모듈 및 디코딩 전략에 대한 광범위한 어블레이션 연구를 통해 이러한 발견을 추가로 검증했습니다. 궁극적으로, 이 연구는 모델 보간의 신비를 풀고 정확히 목표한 추론 능력을 갖춘 모델을 설계하기 위한 실용적인 프레임워크를 제공합니다. 코드는 https://github.com/wutaiqiang/MI{Github}에서 확인할 수 있습니다.
English
Model merging, typically on Instruct and Thinking models, has shown remarkable performance for efficient reasoning. In this paper, we systematically revisit the simplest merging method that interpolates two weights directly. Particularly, we observe that model interpolation follows a three-stage evolutionary paradigm with distinct behaviors on the reasoning trajectory. These dynamics provide a principled guide for navigating the performance-cost trade-off. Empirical results demonstrate that a strategically interpolated model surprisingly surpasses sophisticated model merging baselines on both efficiency and effectiveness. We further validate our findings with extensive ablation studies on model layers, modules, and decoding strategies. Ultimately, this work demystifies model interpolation and offers a practical framework for crafting models with precisely targeted reasoning capabilities. Code is available at https://github.com/wutaiqiang/MI{Github}.
PDF86October 16, 2025