ChatPaper.aiChatPaper

Бесподготовочное рассуждение и рефлексия в многомодальных языковых моделях (MLLMs)

Training-Free Reasoning and Reflection in MLLMs

May 22, 2025
Авторы: Hongchen Wei, Zhenzhong Chen
cs.AI

Аннотация

Последние достижения в области языковых моделей с возможностью рассуждений (Reasoning LLMs, например, DeepSeek-R1 и OpenAI-o1) продемонстрировали впечатляющие способности к рассуждениям благодаря обучению с подкреплением. Однако расширение этих возможностей на мультимодальные языковые модели (MLLMs) затруднено из-за непомерно высоких затрат на повторное обучение и недостатка высококачественных, проверяемых мультимодальных наборов данных для рассуждений. В данной статье представлена модель FRANK, MLLM, которая не требует дополнительного обучения и обладает способностями к рассуждениям и рефлексии, аналогичными модели R1, при этом не требует обновления градиентов или дополнительного контроля. Наше ключевое наблюдение заключается в разделении восприятия и рассуждений между слоями декодера MLLM. В частности, мы отмечаем, что по сравнению с более глубокими слоями декодера, поверхностные слои уделяют больше внимания визуальным токенам, тогда как глубокие слои сосредоточены на текстовой семантике. Это наблюдение мотивирует использование иерархического подхода к объединению весов, который сочетает визуально предобученную MLLM с языковой моделью, специализированной на рассуждениях. Для этого мы предлагаем послойный механизм слияния, основанный на формуле Тейлора, который интегрирует способность к рассуждениям в глубокие слои декодера, сохраняя при этом визуальную привязку в поверхностных слоях. Эксперименты на сложных мультимодальных тестах для рассуждений подтверждают эффективность нашего подхода. На тестовом наборе MMMU наша модель FRANK-38B достигает точности 69,2, превосходя самый сильный базовый вариант InternVL2.5-38B на +5,3 и даже опережая проприетарную модель GPT-4o. Домашняя страница нашего проекта доступна по адресу: http://iip.whu.edu.cn/frank/index.html.
English
Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have showcased impressive reasoning capabilities via reinforcement learning. However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by the prohibitive costs of retraining and the scarcity of high-quality, verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning and reflection abilities, without any gradient updates or extra supervision. Our key insight is to decouple perception and reasoning across MLLM decoder layers. Specifically, we observe that compared to the deeper decoder layers, the shallow decoder layers allocate more attention to visual tokens, while the deeper decoder layers concentrate on textual semantics. This observation motivates a hierarchical weight merging approach that combines a visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we propose a layer-wise, Taylor-derived closed-form fusion mechanism that integrates reasoning capacity into deep decoder layers while preserving visual grounding in shallow decoder layers. Extensive experiments on challenging multimodal reasoning benchmarks demonstrate the effectiveness of our approach. On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2, outperforming the strongest baseline InternVL2.5-38B by +5.3, and even surpasses the proprietary GPT-4o model. Our project homepage is at: http://iip.whu.edu.cn/frank/index.html

Summary

AI-Generated Summary

PDF73May 23, 2025