추적 가능한 증거 강화 시각적 기반 추론: 평가 및 방법론
Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology
July 10, 2025
저자: Haochen Wang, Xiangtai Li, Zilong Huang, Anran Wang, Jiacong Wang, Tao Zhang, Jiani Zheng, Sule Bai, Zijian Kang, Jiashi Feng, Zhuochen Wang, Zhaoxiang Zhang
cs.AI
초록
OpenAI-o3와 같은 모델은 인간의 "이미지를 통한 사고"와 유사하게 시각적 영역을 동적으로 참조함으로써 시각적 근거 추론을 선도합니다. 그러나 이러한 능력을 종합적으로 평가할 수 있는 벤치마크는 존재하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 TreeBench(Traceable Evidence Evaluation Benchmark)를 제안합니다. 이 진단 벤치마크는 세 가지 원칙에 기반을 두고 있습니다: (1) 복잡한 장면에서 미묘한 대상에 대한 집중된 시각적 인지, (2) 바운딩 박스 평가를 통한 추적 가능한 증거, (3) 단순한 객체 위치 지정을 넘어 객체 상호작용과 공간적 계층 구조를 테스트하는 2차 추론. 밀집된 객체가 있는 이미지를 우선적으로 고려하여, SA-1B에서 초기에 1,000개의 고품질 이미지를 샘플링하고, 8명의 LMM 전문가를 통해 각 이미지에 대한 질문, 후보 옵션, 그리고 답변을 수동으로 주석 처리합니다. 세 단계의 품질 관리 과정을 거친 후, TreeBench는 405개의 도전적인 시각적 질문-답변 쌍으로 구성되며, 가장 진보된 모델들도 이 벤치마크에서 60%의 정확도를 달성하지 못합니다. 예를 들어, OpenAI-o3는 단 54.87점을 기록합니다. 더 나아가, 우리는 TreeVGR(Traceable Evidence Enhanced Visual Grounded Reasoning)를 소개합니다. 이는 강화 학습을 통해 위치 지정과 추론을 공동으로 감독하는 훈련 패러다임으로, 정확한 위치 지정과 설명 가능한 추론 경로를 가능하게 합니다. Qwen2.5-VL-7B로 초기화된 TreeVGR는 V* Bench(+16.8), MME-RealWorld(+12.6), 그리고 TreeBench(+13.4)에서 개선된 성능을 보여주며, 추적 가능성이 시각적 근거 추론을 발전시키는 데 핵심임을 입증합니다. 코드는 https://github.com/Haochen-Wang409/TreeVGR에서 확인할 수 있습니다.
English
Models like OpenAI-o3 pioneer visual grounded reasoning by dynamically
referencing visual regions, just like human "thinking with images". However, no
benchmark exists to evaluate these capabilities holistically. To bridge this
gap, we propose TreeBench (Traceable Evidence Evaluation Benchmark), a
diagnostic benchmark built on three principles: (1) focused visual perception
of subtle targets in complex scenes, (2) traceable evidence via bounding box
evaluation, and (3) second-order reasoning to test object interactions and
spatial hierarchies beyond simple object localization. Prioritizing images with
dense objects, we initially sample 1K high-quality images from SA-1B, and
incorporate eight LMM experts to manually annotate questions, candidate
options, and answers for each image. After three stages of quality control,
TreeBench consists of 405 challenging visual question-answering pairs, even the
most advanced models struggle with this benchmark, where none of them reach 60%
accuracy, e.g., OpenAI-o3 scores only 54.87. Furthermore, we introduce TreeVGR
(Traceable Evidence Enhanced Visual Grounded Reasoning), a training paradigm to
supervise localization and reasoning jointly with reinforcement learning,
enabling accurate localizations and explainable reasoning pathways. Initialized
from Qwen2.5-VL-7B, it improves V* Bench (+16.8), MME-RealWorld (+12.6), and
TreeBench (+13.4), proving traceability is key to advancing vision-grounded
reasoning. The code is available at https://github.com/Haochen-Wang409/TreeVGR.