Ref-Adv: 참조 표현 작업에서의 MLLM 시각적 추론 탐구
Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks
February 27, 2026
저자: Qihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu
cs.AI
초록
참조 표현 이해(Referring Expression Comprehension, REC)는 언어와 영역 수준 시각 인식을 연결합니다. RefCOCO, RefCOCO+, RefCOCOg와 같은 표준 벤치마크는 멀티모달 대규모 언어 모델의 발전으로 빠르게 진보했지만, 시각적 추론 및 기반 설정 능력을 평가하는 데는 여전히 한계가 있습니다: (i) 많은 표현이 매우 짧아 추론 부담이 적고, (ii) 이미지에 방해 요소가 적어 대상을 찾기 쉽며, (iii) 중복된 서술어로 인해 진정한 텍스트 이해와 시각적 추론을 우회하는 지름길 해결책이 가능하기 때문입니다. 본 논문에서는 지름길 해결책을 억제하는 현대적 REC 벤치마크인 Ref-Adv를 소개합니다. Ref-Adv는 언어적으로 복잡한 표현을 대상 고유 식별에 필요한 최소 정보와 짝지어 구성했습니다. 이 데이터셋은 실제 이미지에 대한 참조 표현을 포함하며, 어려운 방해 요소를 배치하고 부정을 포함한 추론 요소에 주석을 달았습니다. 포괄적 절제 연구(단어 순서 변형 및 서술어 삭제 충분성 검증)를 통해 Ref-Adv 해결에는 단순한 단서 이상의 추론이 필요함을 보였으며, 다양한 현대 멀티모달 LLM을 Ref-Adv로 평가했습니다. RefCOCO, RefCOCO+, RefCOCOg에서 강력한 성능을 보인 모델들도 Ref-Adv에서는 성능이 현저히 하락하여 지름길 해결책 의존성과 시각적 추론 및 기반 설정 능력의 격차를 드러냈습니다. 본 논문은 심층 실패 분석을 제공하며, Ref-Adv가 향후 MLLM의 시각적 추론 및 기반 설정 연구를 안내하는 데 기여하기를 목표로 합니다.
English
Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.