Desbloqueando Raciocínio Eficiente de Longo para Curto em LLMs com Fusão de Modelos
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
March 26, 2025
Autores: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
cs.AI
Resumo
A transição do raciocínio do Sistema 1 para o Sistema 2 em modelos de linguagem de grande escala (LLMs) marcou avanços significativos no tratamento de tarefas complexas por meio de pensamento deliberativo e iterativo. No entanto, esse progresso frequentemente ocorre à custa da eficiência, já que os modelos tendem a "pensar demais", gerando etapas de raciocínio redundantes sem melhorias proporcionais na qualidade da saída. O raciocínio Longo-para-Curto (L2S) surgiu como uma solução promissora para esse desafio, visando equilibrar a profundidade do raciocínio com a eficiência prática. Embora abordagens existentes, como ajuste fino supervisionado (SFT), aprendizado por reforço (RL) e engenharia de prompts, tenham mostrado potencial, elas são ou computacionalmente caras ou instáveis. A fusão de modelos, por outro lado, oferece uma alternativa econômica e robusta ao integrar as capacidades de pensamento rápido dos modelos do Sistema 1 com o raciocínio metódico dos modelos do Sistema 2. Neste trabalho, apresentamos um estudo empírico abrangente sobre a fusão de modelos para raciocínio L2S, explorando diversas metodologias, incluindo fusão baseada em vetores de tarefas, SVD e ativações informadas. Nossos experimentos revelam que a fusão de modelos pode reduzir o comprimento médio das respostas em até 55%, preservando ou até melhorando o desempenho de base. Também identificamos uma forte correlação entre a escala do modelo e a eficácia da fusão, com avaliações extensas em modelos de 1,5B/7B/14B/32B. Além disso, investigamos a capacidade do modelo fundido de autocriticar e autocorrigir, bem como seu comprimento de resposta adaptativo com base na complexidade da tarefa. Nossos resultados destacam a fusão de modelos como um paradigma altamente eficiente e eficaz para o raciocínio L2S, oferecendo uma solução prática para o problema de "pensar demais" enquanto mantém a robustez do raciocínio do Sistema 2. Este trabalho pode ser encontrado no Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
English
The transition from System 1 to System 2 reasoning in large language models
(LLMs) has marked significant advancements in handling complex tasks through
deliberate, iterative thinking. However, this progress often comes at the cost
of efficiency, as models tend to overthink, generating redundant reasoning
steps without proportional improvements in output quality. Long-to-Short (L2S)
reasoning has emerged as a promising solution to this challenge, aiming to
balance reasoning depth with practical efficiency. While existing approaches,
such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt
engineering, have shown potential, they are either computationally expensive or
unstable. Model merging, on the other hand, offers a cost-effective and robust
alternative by integrating the quick-thinking capabilities of System 1 models
with the methodical reasoning of System 2 models. In this work, we present a
comprehensive empirical study on model merging for L2S reasoning, exploring
diverse methodologies, including task-vector-based, SVD-based, and
activation-informed merging. Our experiments reveal that model merging can
reduce average response length by up to 55% while preserving or even improving
baseline performance. We also identify a strong correlation between model scale
and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models.
Furthermore, we investigate the merged model's ability to self-critique and
self-correct, as well as its adaptive response length based on task complexity.
Our findings highlight model merging as a highly efficient and effective
paradigm for L2S reasoning, offering a practical solution to the overthinking
problem while maintaining the robustness of System 2 reasoning. This work can
be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.Summary
AI-Generated Summary