Débloquer un raisonnement efficace des LLM du long au court grâce à la fusion de modèles
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
March 26, 2025
Auteurs: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
cs.AI
Résumé
La transition du raisonnement de type Système 1 à celui de type Système 2 dans les grands modèles de langage (LLMs) a marqué des avancées significatives dans la gestion de tâches complexes grâce à une pensée délibérée et itérative. Cependant, ces progrès s'accompagnent souvent d'une perte d'efficacité, car les modèles ont tendance à trop réfléchir, générant des étapes de raisonnement redondantes sans amélioration proportionnelle de la qualité des résultats. Le raisonnement Long-à-Court (L2S) s'est imposé comme une solution prometteuse à ce défi, visant à équilibrer la profondeur du raisonnement avec une efficacité pratique. Bien que les approches existantes, telles que le fine-tuning supervisé (SFT), l'apprentissage par renforcement (RL) et l'ingénierie de prompts, aient montré un potentiel, elles sont soit coûteuses en calcul, soit instables. La fusion de modèles, en revanche, offre une alternative économique et robuste en intégrant les capacités de pensée rapide des modèles de type Système 1 avec le raisonnement méthodique des modèles de type Système 2. Dans ce travail, nous présentons une étude empirique approfondie sur la fusion de modèles pour le raisonnement L2S, explorant diverses méthodologies, notamment la fusion basée sur des vecteurs de tâches, sur la décomposition en valeurs singulières (SVD) et sur les activations. Nos expériences révèlent que la fusion de modèles peut réduire la longueur moyenne des réponses jusqu'à 55 % tout en préservant, voire en améliorant, les performances de référence. Nous identifions également une forte corrélation entre l'échelle du modèle et l'efficacité de la fusion grâce à des évaluations approfondies sur des modèles de 1,5B/7B/14B/32B. De plus, nous étudions la capacité du modèle fusionné à s'auto-critiquer et à s'auto-corriger, ainsi que sa capacité à adapter la longueur de ses réponses en fonction de la complexité de la tâche. Nos résultats mettent en évidence la fusion de modèles comme un paradigme hautement efficace et efficient pour le raisonnement L2S, offrant une solution pratique au problème de la surréflexion tout en maintenant la robustesse du raisonnement de type Système 2. Ce travail est disponible sur Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
English
The transition from System 1 to System 2 reasoning in large language models
(LLMs) has marked significant advancements in handling complex tasks through
deliberate, iterative thinking. However, this progress often comes at the cost
of efficiency, as models tend to overthink, generating redundant reasoning
steps without proportional improvements in output quality. Long-to-Short (L2S)
reasoning has emerged as a promising solution to this challenge, aiming to
balance reasoning depth with practical efficiency. While existing approaches,
such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt
engineering, have shown potential, they are either computationally expensive or
unstable. Model merging, on the other hand, offers a cost-effective and robust
alternative by integrating the quick-thinking capabilities of System 1 models
with the methodical reasoning of System 2 models. In this work, we present a
comprehensive empirical study on model merging for L2S reasoning, exploring
diverse methodologies, including task-vector-based, SVD-based, and
activation-informed merging. Our experiments reveal that model merging can
reduce average response length by up to 55% while preserving or even improving
baseline performance. We also identify a strong correlation between model scale
and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models.
Furthermore, we investigate the merged model's ability to self-critique and
self-correct, as well as its adaptive response length based on task complexity.
Our findings highlight model merging as a highly efficient and effective
paradigm for L2S reasoning, offering a practical solution to the overthinking
problem while maintaining the robustness of System 2 reasoning. This work can
be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.Summary
AI-Generated Summary