VLM-R^3: Распознавание областей, логические рассуждения и уточнение для улучшенного мультимодального цепочки рассуждений
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought
May 22, 2025
Авторы: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI
Аннотация
В последнее время мультимодальные языковые модели (MLLM), основанные на рассуждениях, достигли определенных успехов в генерации длинных текстовых цепочек рассуждений. Однако они по-прежнему испытывают трудности с выполнением сложных задач, требующих динамического и итеративного фокусирования и повторного анализа визуальных областей для точного обоснования текстовых рассуждений визуальными данными. Мы представляем VLM-R^3 (Visual Language Model with Region Recognition and Reasoning) — фреймворк, который наделяет MLLM способностью (i) определять, когда требуется дополнительная визуальная информация, (ii) выбирать, на какую область изображения следует ориентироваться, и (iii) плавно интегрировать содержание соответствующих суб-изображений в чередующуюся цепочку рассуждений. Основой нашего метода является оптимизация политики с подкреплением, обусловленная регионами (Region-Conditioned Reinforcement Policy Optimization, R-GRPO) — парадигма обучения, которая вознаграждает модель за выбор информативных областей, формулирование подходящих преобразований (например, обрезка, увеличение) и интеграцию полученного визуального контекста в последующие шаги рассуждений. Для начальной настройки этой политики мы составили небольшой, но тщательно отобранный корпус Visuo-Lingual Interleaved Rationale (VLIR), который предоставляет пошаговый контроль за выбором областей и текстовым обоснованием. Экстенсивные эксперименты на наборах данных MathVista, ScienceQA и других бенчмарках показывают, что VLM-R^3 устанавливает новый уровень состояния искусства в условиях zero-shot и few-shot, с наибольшим приростом производительности на задачах, требующих тонкого пространственного рассуждения или извлечения детализированных визуальных подсказок.
English
Recently, reasoning-based MLLMs have achieved a degree of success in
generating long-form textual reasoning chains. However, they still struggle
with complex tasks that necessitate dynamic and iterative focusing on and
revisiting of visual regions to achieve precise grounding of textual reasoning
in visual evidence. We introduce VLM-R^3 (Visual
Language Model with Region Recognition and
Reasoning), a framework that equips an MLLM with the ability to (i)
decide when additional visual evidence is needed, (ii) determine
where to ground within the image, and (iii) seamlessly weave the
relevant sub-image content back into an interleaved chain-of-thought. The core
of our method is Region-Conditioned Reinforcement Policy Optimization
(R-GRPO), a training paradigm that rewards the model for selecting informative
regions, formulating appropriate transformations (e.g.\ crop, zoom), and
integrating the resulting visual context into subsequent reasoning steps. To
bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual
Interleaved Rationale (VLIR) corpus that provides step-level supervision on
region selection and textual justification. Extensive experiments on MathVista,
ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art
in zero-shot and few-shot settings, with the largest gains appearing on
questions demanding subtle spatial reasoning or fine-grained visual cue
extraction.Summary
AI-Generated Summary