ChatPaper.aiChatPaper

단일 양식 단축 경로를 넘어: 접지된 개체명 인식을 위한 교차 양식 추론기로서의 MLLM

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

February 4, 2026
저자: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI

초록

접지된 다중모달 개체명 인식(GMNER)은 텍스트 기반 개체를 추출하고 의미 범주를 할당하며 해당 시각적 영역에 접지하는 것을 목표로 합니다. 본 연구에서는 다중모달 대규모 언어 모델(MLLM)이 계단식 파이프라인 내 보조 도구 역할을 넘어 엔드투엔드 방식으로 GMNER를 수행할 수 있는 잠재력을 탐구합니다. 중요한 것은 우리의 연구에서 MLLM이 모달리티 편향(시각적 편향 및 텍스트 편향)을 보인다는 근본적인 과제를 발견했다는 점입니다. 이는 모델이 엄격한 교차 모달 검증보다는 단일 모달 단축 경로를 취하는 경향에서 비롯됩니다. 이를 해결하기 위해 우리는 구조화된 교차 모달 추론을 강제하는 모달리티 인식 일관성 추론(MCR)을 제안합니다. MCR은 다중 스타일 추론 체계 주입(MRSI)과 제약 기반 검증 가능 최적화(CVO)로 구성됩니다. MRSI는 추상적 제약 조건을 실행 가능한 추론 체인으로 변환하는 반면, CVO는 모델이 그룹 상대 정책 최적화(GRPO)와 추론 궤적을 동적으로 정렬할 수 있도록 합니다. GMNER 및 시각적 접지 작업에 대한 실험을 통해 MCR이 모달리티 편향을 효과적으로 완화하고 기존 베이스라인 대비 우수한 성능을 달성함을 입증했습니다.
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.
PDF61February 6, 2026