Раскрытие потенциала эффективного рассуждения от длинных к коротким в крупных языковых моделях через слияние моделей
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
March 26, 2025
Авторы: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
cs.AI
Аннотация
Переход от рассуждений Системы 1 к Системе 2 в крупных языковых моделях (LLM) ознаменовал значительные успехи в решении сложных задач за счет осознанного, итеративного мышления. Однако этот прогресс часто достигается ценой эффективности, поскольку модели склонны "переосмысливать", генерируя избыточные шаги рассуждений без пропорционального улучшения качества выходных данных. Рассуждения "от длинного к короткому" (Long-to-Short, L2S) появились как перспективное решение этой проблемы, стремясь сбалансировать глубину рассуждений с практической эффективностью. Хотя существующие подходы, такие как контролируемая тонкая настройка (SFT), обучение с подкреплением (RL) и инженерия промптов, показали потенциал, они либо требуют значительных вычислительных ресурсов, либо нестабильны. Слияние моделей, напротив, предлагает экономичную и надежную альтернативу, объединяя быстрые когнитивные способности моделей Системы 1 с методичными рассуждениями моделей Системы 2. В данной работе мы представляем всестороннее эмпирическое исследование слияния моделей для L2S-рассуждений, изучая различные методологии, включая слияние на основе векторов задач, SVD и активаций. Наши эксперименты показывают, что слияние моделей может сократить среднюю длину ответа до 55%, сохраняя или даже улучшая базовую производительность. Мы также выявляем сильную корреляцию между масштабом модели и эффективностью слияния на основе обширных оценок моделей с 1,5B/7B/14B/32B параметрами. Кроме того, мы исследуем способность объединенной модели к самокритике и самокоррекции, а также ее адаптивную длину ответа в зависимости от сложности задачи. Наши результаты подчеркивают слияние моделей как высокоэффективную и действенную парадигму для L2S-рассуждений, предлагая практическое решение проблемы "переосмысления" при сохранении надежности рассуждений Системы 2. Эта работа доступна на GitHub: https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
English
The transition from System 1 to System 2 reasoning in large language models
(LLMs) has marked significant advancements in handling complex tasks through
deliberate, iterative thinking. However, this progress often comes at the cost
of efficiency, as models tend to overthink, generating redundant reasoning
steps without proportional improvements in output quality. Long-to-Short (L2S)
reasoning has emerged as a promising solution to this challenge, aiming to
balance reasoning depth with practical efficiency. While existing approaches,
such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt
engineering, have shown potential, they are either computationally expensive or
unstable. Model merging, on the other hand, offers a cost-effective and robust
alternative by integrating the quick-thinking capabilities of System 1 models
with the methodical reasoning of System 2 models. In this work, we present a
comprehensive empirical study on model merging for L2S reasoning, exploring
diverse methodologies, including task-vector-based, SVD-based, and
activation-informed merging. Our experiments reveal that model merging can
reduce average response length by up to 55% while preserving or even improving
baseline performance. We also identify a strong correlation between model scale
and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models.
Furthermore, we investigate the merged model's ability to self-critique and
self-correct, as well as its adaptive response length based on task complexity.
Our findings highlight model merging as a highly efficient and effective
paradigm for L2S reasoning, offering a practical solution to the overthinking
problem while maintaining the robustness of System 2 reasoning. This work can
be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.Summary
AI-Generated Summary