ChatPaper.aiChatPaper

VLM-R^3: 향상된 멀티모달 사고 사슬을 위한 영역 인식, 추론 및 정제

VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought

May 22, 2025
저자: Chaoya Jiang, Yongrui Heng, Wei Ye, Han Yang, Haiyang Xu, Ming Yan, Ji Zhang, Fei Huang, Shikun Zhang
cs.AI

초록

최근, 추론 기반 MLLM(Multimodal Large Language Model)은 장문의 텍스트 추론 체인 생성에서 어느 정도 성공을 거두었습니다. 그러나 시각적 증거에 대한 정확한 텍스트 추론의 근거를 마련하기 위해 시각적 영역에 동적이고 반복적으로 초점을 맞추고 재검토해야 하는 복잡한 작업에는 여전히 어려움을 겪고 있습니다. 우리는 VLM-R^3(Visual Language Model with Region Recognition and Reasoning)을 소개합니다. 이 프레임워크는 MLLM에게 (i) 추가적인 시각적 증거가 필요한 시점을 결정하고, (ii) 이미지 내에서 어디에 근거를 둘지 결정하며, (iii) 관련 하위 이미지 내용을 인터리브된 사고 체인에 원활하게 통합하는 능력을 부여합니다. 우리 방법의 핵심은 Region-Conditioned Reinforcement Policy Optimization(R-GRPO)으로, 이는 정보가 풍부한 영역을 선택하고, 적절한 변환(예: 자르기, 확대)을 공식화하며, 결과적인 시각적 맥락을 후속 추론 단계에 통합하는 모델을 보상하는 훈련 패러다임입니다. 이 정책을 부트스트랩하기 위해, 우리는 영역 선택과 텍스트적 정당화에 대한 단계별 감독을 제공하는 소규모이지만 신중하게 선별된 Visuo-Lingual Interleaved Rationale(VLIR) 코퍼스를 구축했습니다. MathVista, ScienceQA 및 기타 벤치마크에서의 광범위한 실험은 VLM-R^3이 제로샷 및 퓨샷 설정에서 새로운 최첨단 기술을 설정하며, 미묘한 공간 추론이나 세밀한 시각적 단서 추출을 요구하는 질문에서 가장 큰 성과를 보임을 나타냅니다.
English
Recently, reasoning-based MLLMs have achieved a degree of success in generating long-form textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on and revisiting of visual regions to achieve precise grounding of textual reasoning in visual evidence. We introduce VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), a framework that equips an MLLM with the ability to (i) decide when additional visual evidence is needed, (ii) determine where to ground within the image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved chain-of-thought. The core of our method is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), a training paradigm that rewards the model for selecting informative regions, formulating appropriate transformations (e.g.\ crop, zoom), and integrating the resulting visual context into subsequent reasoning steps. To bootstrap this policy, we compile a modest but carefully curated Visuo-Lingual Interleaved Rationale (VLIR) corpus that provides step-level supervision on region selection and textual justification. Extensive experiments on MathVista, ScienceQA, and other benchmarks show that VLM-R^3 sets a new state of the art in zero-shot and few-shot settings, with the largest gains appearing on questions demanding subtle spatial reasoning or fine-grained visual cue extraction.

Summary

AI-Generated Summary

PDF62May 23, 2025