ChatPaper.aiChatPaper

VGR: 시각적 근거 기반 추론

VGR: Visual Grounded Reasoning

June 13, 2025
저자: Jiacong Wang, Zijiang Kang, Haochen Wang, Haiyong Jiang, Jiawen Li, Bohong Wu, Ya Wang, Jiao Ran, Xiao Liang, Chao Feng, Jun Xiao
cs.AI

초록

다중 모드 사고 연쇄(CoT) 추론 분야에서 기존 접근법은 주로 순수 언어 공간에서의 추론에 의존하며, 이는 본질적으로 언어 편향을 겪고 수학이나 과학 도메인에 크게 국한된다. 이러한 좁은 초점은 이미지 세부 사항에 대한 포괄적인 이해를 요구하는 복잡한 시각적 추론 과제를 처리하는 능력을 제한한다. 이러한 한계를 해결하기 위해, 본 논문은 향상된 세밀한 시각적 인지 능력을 가진 새로운 추론 다중 모드 대형 언어 모델(MLLM)인 VGR을 소개한다. 질문에 답하거나 언어 공간에서만 추론하는 전통적인 MLLM과 달리, 우리의 VGR은 먼저 문제 해결에 도움이 될 수 있는 관련 영역을 탐지한 후, 재생된 이미지 영역을 기반으로 정확한 답변을 제공한다. 이를 위해, 우리는 시각적 근거와 언어적 추론이 혼합된 추론 데이터를 포함하는 대규모 SFT 데이터셋인 VGR-SFT를 구축한다. VGR의 추론 파이프라인은 모델이 시각적 참조를 위한 경계 상자를 선택할 수 있게 하며, 해당 영역을 추론 과정에 통합하는 재생 단계를 도입하여 다중 모델 이해를 강화한다. LLaVA-NeXT-7B 기준선에 대한 실험 결과, VGR은 포괄적인 이미지 세부 사항 이해를 요구하는 다중 모드 벤치마크에서 우수한 성능을 달성한다. 기준선과 비교하여, VGR은 이미지 토큰 수의 30%만 사용하면서 MMStar에서 +4.1, AI2D에서 +7.1, ChartQA에서 +12.9의 점수 향상을 보인다.
English
In the field of multimodal chain-of-thought (CoT) reasoning, existing approaches predominantly rely on reasoning on pure language space, which inherently suffers from language bias and is largely confined to math or science domains. This narrow focus limits their ability to handle complex visual reasoning tasks that demand comprehensive understanding of image details. To address these limitations, this paper introduces VGR, a novel reasoning multimodal large language model (MLLM) with enhanced fine-grained visual perception capabilities. Unlike traditional MLLMs that answer the question or reasoning solely on the language space, our VGR first detects relevant regions that may help to solve problems, and then provides precise answers based on replayed image regions. To achieve this, we conduct a large-scale SFT dataset called VGR -SFT that contains reasoning data with mixed vision grounding and language deduction. The inference pipeline of VGR allows the model to choose bounding boxes for visual reference and a replay stage is introduced to integrates the corresponding regions into the reasoning process, enhancing multimodel comprehension. Experiments on the LLaVA-NeXT-7B baseline show that VGR achieves superior performance on multi-modal benchmarks requiring comprehensive image detail understanding. Compared to the baseline, VGR uses only 30\% of the image token count while delivering scores of +4.1 on MMStar, +7.1 on AI2D, and a +12.9 improvement on ChartQA.
PDF172June 17, 2025