Efficiënte lange-naar-korte LLM-redenering ontgrendelen met modelmerging
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
March 26, 2025
Auteurs: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
cs.AI
Samenvatting
De overgang van System 1 naar System 2 redeneren in grote taalmodellen (LLMs) heeft aanzienlijke vooruitgang geboekt in het omgaan met complexe taken door middel van doelgericht, iteratief denken. Deze vooruitgang gaat echter vaak ten koste van efficiëntie, aangezien modellen de neiging hebben om te overdenken, wat resulteert in overbodige redeneerstappen zonder proportionele verbeteringen in de uitvoerkwaliteit. Long-to-Short (L2S) redeneren is naar voren gekomen als een veelbelovende oplossing voor deze uitdaging, met als doel een balans te vinden tussen redeneerdiepte en praktische efficiëntie. Hoewel bestaande benaderingen, zoals supervised fine-tuning (SFT), reinforcement learning (RL) en prompt engineering, potentieel hebben getoond, zijn ze ofwel rekenintensief of instabiel. Model merging biedt daarentegen een kosteneffectief en robuust alternatief door de snelle denkcapaciteiten van System 1-modellen te integreren met de methodische redenering van System 2-modellen. In dit werk presenteren we een uitgebreide empirische studie naar model merging voor L2S redeneren, waarbij we diverse methodologieën onderzoeken, waaronder taakvector-gebaseerde, SVD-gebaseerde en activatie-geïnformeerde merging. Onze experimenten tonen aan dat model merging de gemiddelde responslengte met tot wel 55% kan verminderen, terwijl de baselineprestaties behouden blijven of zelfs verbeterd worden. We identificeren ook een sterke correlatie tussen modelschaal en merging-effectiviteit door uitgebreide evaluaties op 1,5B/7B/14B/32B modellen. Daarnaast onderzoeken we het vermogen van het samengevoegde model om zelf te reflecteren en zichzelf te corrigeren, evenals de adaptieve responslengte op basis van taakcomplexiteit. Onze bevindingen benadrukken model merging als een zeer efficiënt en effectief paradigma voor L2S redeneren, dat een praktische oplossing biedt voor het overdenkprobleem terwijl de robuustheid van System 2 redeneren behouden blijft. Dit werk is te vinden op Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
English
The transition from System 1 to System 2 reasoning in large language models
(LLMs) has marked significant advancements in handling complex tasks through
deliberate, iterative thinking. However, this progress often comes at the cost
of efficiency, as models tend to overthink, generating redundant reasoning
steps without proportional improvements in output quality. Long-to-Short (L2S)
reasoning has emerged as a promising solution to this challenge, aiming to
balance reasoning depth with practical efficiency. While existing approaches,
such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt
engineering, have shown potential, they are either computationally expensive or
unstable. Model merging, on the other hand, offers a cost-effective and robust
alternative by integrating the quick-thinking capabilities of System 1 models
with the methodical reasoning of System 2 models. In this work, we present a
comprehensive empirical study on model merging for L2S reasoning, exploring
diverse methodologies, including task-vector-based, SVD-based, and
activation-informed merging. Our experiments reveal that model merging can
reduce average response length by up to 55% while preserving or even improving
baseline performance. We also identify a strong correlation between model scale
and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models.
Furthermore, we investigate the merged model's ability to self-critique and
self-correct, as well as its adaptive response length based on task complexity.
Our findings highlight model merging as a highly efficient and effective
paradigm for L2S reasoning, offering a practical solution to the overthinking
problem while maintaining the robustness of System 2 reasoning. This work can
be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.Summary
AI-Generated Summary