ChatPaper.aiChatPaper

VLM-R^3: Распознавание областей, логические рассуждения и уточнение для улучшенного мультимодального цепочки рассуждений

VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

May 22, 2025
Авторы: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI

Аннотация

В последнее время мультимодальные языковые модели (MLLM), основанные на рассуждениях, достигли определенных успехов в генерации длинных текстовых цепочек рассуждений. Однако они по-прежнему испытывают трудности с выполнением сложных задач, требующих динамического и итеративного фокусирования и повторного анализа визуальных областей для точного обоснования текстовых рассуждений визуальными данными. Мы представляем VLM-R^3 (Visual Language Model with Region Recognition and Reasoning) — фреймворк, который наделяет MLLM способностью (i) определять, когда требуется дополнительная визуальная информация, (ii) выбирать, на какую область изображения следует ориентироваться, и (iii) плавно интегрировать содержание соответствующих суб-изображений в чередующуюся цепочку рассуждений. Основой нашего метода является оптимизация политики с подкреплением, обусловленная регионами (Region-Conditioned Reinforcement Policy Optimization, R-GRPO) — парадигма обучения, которая вознаграждает модель за выбор информативных областей, формулирование подходящих преобразований (например, обрезка, увеличение) и интеграцию полученного визуального контекста в последующие шаги рассуждений. Для начальной настройки этой политики мы составили небольшой, но тщательно отобранный корпус Visuo-Lingual Interleaved Rationale (VLIR), который предоставляет пошаговый контроль за выбором областей и текстовым обоснованием. Экстенсивные эксперименты на наборах данных MathVista, ScienceQA и других бенчмарках показывают, что VLM-R^3 устанавливает новый уровень состояния искусства в условиях zero-shot и few-shot, с наибольшим приростом производительности на задачах, требующих тонкого пространственного рассуждения или извлечения детализированных визуальных подсказок.
English
Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), a framework that equips an MLLM with the ability to (i) decide when additional visual evidence is needed, (ii) determine where to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.

Summary

AI-Generated Summary

PDF62May 23, 2025