Razonamiento y Reflexión sin Entrenamiento en MLLMs
Training-Free Reasoning and Reflection in MLLMs
May 22, 2025
Autores: Hongchen Wei, Zhenzhong Chen
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje con capacidades de razonamiento (LLMs, por sus siglas en inglés), como DeepSeek-R1 y OpenAI-o1, han demostrado capacidades impresionantes de razonamiento mediante el aprendizaje por refuerzo. Sin embargo, extender estas capacidades a los modelos de lenguaje multimodal (MLLMs) se ve obstaculizado por los costos prohibitivos de reentrenamiento y la escasez de conjuntos de datos multimodales de alta calidad y verificables para el razonamiento. Este artículo presenta el modelo FRANK, un MLLM que no requiere entrenamiento (training-FRee) y se asemeja a r1, el cual dota a los MLLMs disponibles en el mercado con habilidades de razonamiento y reflexión, sin necesidad de actualizaciones de gradientes o supervisión adicional. Nuestra idea clave es desacoplar la percepción y el razonamiento a través de las capas del decodificador del MLLM. Específicamente, observamos que, en comparación con las capas más profundas del decodificador, las capas superficiales asignan más atención a los tokens visuales, mientras que las capas más profundas se concentran en la semántica textual. Esta observación motiva un enfoque de fusión jerárquica de pesos que combina un MLLM preentrenado en visión con un LLM especializado en razonamiento. Para ello, proponemos un mecanismo de fusión cerrado derivado de Taylor que integra la capacidad de razonamiento en las capas profundas del decodificador mientras preserva la conexión visual en las capas superficiales. Experimentos exhaustivos en benchmarks desafiantes de razonamiento multimodal demuestran la efectividad de nuestro enfoque. En el benchmark MMMU, nuestro modelo FRANK-38B alcanza una precisión de 69.2, superando al baseline más fuerte, InternVL2.5-38B, por +5.3, e incluso supera al modelo propietario GPT-4o. La página principal de nuestro proyecto se encuentra en: http://iip.whu.edu.cn/frank/index.html.
English
Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have
showcased impressive reasoning capabilities via reinforcement learning.
However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by
the prohibitive costs of retraining and the scarcity of high-quality,
verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a
training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning
and reflection abilities, without any gradient updates or extra supervision.
Our key insight is to decouple perception and reasoning across MLLM decoder
layers. Specifically, we observe that compared to the deeper decoder layers,
the shallow decoder layers allocate more attention to visual tokens, while the
deeper decoder layers concentrate on textual semantics. This observation
motivates a hierarchical weight merging approach that combines a
visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we
propose a layer-wise, Taylor-derived closed-form fusion mechanism that
integrates reasoning capacity into deep decoder layers while preserving visual
grounding in shallow decoder layers. Extensive experiments on challenging
multimodal reasoning benchmarks demonstrate the effectiveness of our approach.
On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2,
outperforming the strongest baseline InternVL2.5-38B by +5.3, and even
surpasses the proprietary GPT-4o model. Our project homepage is at:
http://iip.whu.edu.cn/frank/index.htmlSummary
AI-Generated Summary