Desbloqueando un razonamiento eficiente de largo a corto en LLM mediante la fusión de modelos
Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging
March 26, 2025
Autores: Han Wu, Yuxuan Yao, Shuqi Liu, Zehua Liu, Xiaojin Fu, Xiongwei Han, Xing Li, Hui-Ling Zhen, Tao Zhong, Mingxuan Yuan
cs.AI
Resumen
La transición del razonamiento de Sistema 1 a Sistema 2 en los modelos de lenguaje grandes (LLMs) ha marcado avances significativos en el manejo de tareas complejas mediante un pensamiento deliberado e iterativo. Sin embargo, este progreso suele venir a costa de la eficiencia, ya que los modelos tienden a sobrepensar, generando pasos de razonamiento redundantes sin mejoras proporcionales en la calidad de la salida. El razonamiento de Largo a Corto (L2S) ha surgido como una solución prometedora a este desafío, buscando equilibrar la profundidad del razonamiento con la eficiencia práctica. Aunque enfoques existentes, como el ajuste fino supervisado (SFT), el aprendizaje por refuerzo (RL) y la ingeniería de prompts, han mostrado potencial, son computacionalmente costosos o inestables. La fusión de modelos, por otro lado, ofrece una alternativa rentable y robusta al integrar las capacidades de pensamiento rápido de los modelos de Sistema 1 con el razonamiento metódico de los modelos de Sistema 2. En este trabajo, presentamos un estudio empírico exhaustivo sobre la fusión de modelos para el razonamiento L2S, explorando diversas metodologías, incluyendo la fusión basada en vectores de tareas, SVD y activaciones informadas. Nuestros experimentos revelan que la fusión de modelos puede reducir la longitud promedio de las respuestas hasta en un 55% mientras se preserva o incluso mejora el rendimiento base. También identificamos una fuerte correlación entre la escala del modelo y la eficacia de la fusión mediante evaluaciones extensas en modelos de 1.5B/7B/14B/32B. Además, investigamos la capacidad del modelo fusionado para autocriticarse y autocorregirse, así como su longitud de respuesta adaptativa según la complejidad de la tarea. Nuestros hallazgos destacan la fusión de modelos como un paradigma altamente eficiente y efectivo para el razonamiento L2S, ofreciendo una solución práctica al problema del sobrepensamiento mientras se mantiene la robustez del razonamiento de Sistema 2. Este trabajo puede encontrarse en Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
English
The transition from System 1 to System 2 reasoning in large language models
(LLMs) has marked significant advancements in handling complex tasks through
deliberate, iterative thinking. However, this progress often comes at the cost
of efficiency, as models tend to overthink, generating redundant reasoning
steps without proportional improvements in output quality. Long-to-Short (L2S)
reasoning has emerged as a promising solution to this challenge, aiming to
balance reasoning depth with practical efficiency. While existing approaches,
such as supervised fine-tuning (SFT), reinforcement learning (RL), and prompt
engineering, have shown potential, they are either computationally expensive or
unstable. Model merging, on the other hand, offers a cost-effective and robust
alternative by integrating the quick-thinking capabilities of System 1 models
with the methodical reasoning of System 2 models. In this work, we present a
comprehensive empirical study on model merging for L2S reasoning, exploring
diverse methodologies, including task-vector-based, SVD-based, and
activation-informed merging. Our experiments reveal that model merging can
reduce average response length by up to 55% while preserving or even improving
baseline performance. We also identify a strong correlation between model scale
and merging efficacy with extensive evaluations on 1.5B/7B/14B/32B models.
Furthermore, we investigate the merged model's ability to self-critique and
self-correct, as well as its adaptive response length based on task complexity.
Our findings highlight model merging as a highly efficient and effective
paradigm for L2S reasoning, offering a practical solution to the overthinking
problem while maintaining the robustness of System 2 reasoning. This work can
be found on Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.Summary
AI-Generated Summary