Высококачественное визуальное рассуждение с помощью многошагового обучения с подкреплением на основе заземления
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning
July 8, 2025
Авторы: Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu
cs.AI
Аннотация
Современные крупные мультимодальные модели (LMM) сталкиваются с трудностями при обработке изображений высокого разрешения, поскольку такие входные данные преобразуются в огромное количество визуальных токенов, многие из которых не имеют отношения к целевой задаче. В данной работе мы предлагаем Multi-turn Grounding-based Policy Optimization (MGPO) — сквозную структуру обучения с подкреплением (RL), которая позволяет LMM итеративно фокусироваться на ключевых визуальных областях путем автоматического обрезки субизображений на основе координат, предсказанных моделью, в рамках многоходового диалогового подхода. В отличие от контролируемого тонкого настройки (SFT), требующего дорогостоящих дополнительных аннотаций для локализации, наш подход демонстрирует, что LMM могут развивать устойчивые способности к локализации в процессе RL-обучения, используя лишь бинарную функцию вознаграждения, основанную на правильности итогового ответа. Кроме того, мы наблюдаем, что LMM испытывают трудности с самостоятельным запуском визуальной локализации в процессе выполнения. Для решения этой проблемы "холодного старта" мы разработали многоходовый диалоговый шаблон и ограничили вычисление потерь политики выходами модели, сгенерированными в ходе нескольких раундов диалога, что способствует стабильной оптимизации. Многочисленные эксперименты показывают, что при обучении на стандартных данных визуальных вопросов и кратких ответов без аннотаций локализации MGPO эффективно развивает более сильные способности к локализации по сравнению с GRPO, что приводит к улучшению на 5,4% на in-distribution MME-Realworld и на 5,2% на сложном out-of-distribution (OOD) V* Bench. Примечательно, что пост-обучение MGPO на Qwen2.5-VL-7B с 21K образцов превосходит модели OpenAI o1 и GPT-4o на OOD V* Bench. Код доступен по адресу https://github.com/EvolvingLMMs-Lab/MGPO.
English
State-of-the-art large multi-modal models (LMMs) face challenges when
processing high-resolution images, as these inputs are converted into enormous
visual tokens, many of which are irrelevant to the downstream task. In this
paper, we propose Multi-turn Grounding-based Policy Optimization (MGPO), an
end-to-end reinforcement learning (RL) framework that enables LMMs to
iteratively focus on key visual regions by automatically cropping sub-images,
based on model-predicted grounding coordinates within a multi-turn conversation
framework. Compared to supervised fine-tuning (SFT), which requires costly
additional grounding annotations, our approach highlights that LMMs can emerge
robust grounding abilities during the RL training process, leveraging only a
binary reward function derived from the correctness of the final answer.
Additionally, we observe that LMMs struggle to autonomously trigger visual
grounding during the rollout process. To address this cold start problem, we
design a multi-turn conversational template and restrict policy loss
computation to model outputs generated across multiple dialogue rounds, thereby
promoting stable optimization. Extensive experiments demonstrate that, when
trained on standard visual-question-short answering data without grounding
annotations, MGPO effectively elicits stronger grounding capabilities compared
to GRPO, leading to 5.4\% improvement on in-distribution MME-Realworld and
5.2\% improvement on the challenging out-of-distribution (OOD) V* Bench.
Notably, MGPO post-training on Qwen2.5-VL-7B with 21K samples surpasses
OpenAI's o1 and GPT-4o models on the OOD V* Bench. Codes are available at
https://github.com/EvolvingLMMs-Lab/MGPO.