ChatPaper.aiChatPaper

単一モダリティの近道を超えて:接地された固有表現認識のためのクロスモーダル推論器としてのMLLM

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

February 4, 2026
著者: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI

要旨

接地型マルチモーダル固有表現認識(GMNER)は、テキストベースのエンティティを抽出し、意味的カテゴリを割り当て、対応する視覚的領域に接地(グラウンディング)することを目的としている。本研究では、マルチモーダル大規模言語モデル(MLLM)が、従来のカスケード型パイプライン内での補助的ツールとしての役割を超えて、GMNERをエンドツーエンドで実行する可能性を探求する。重要なことに、我々の調査は根本的な課題を明らかにした:MLLMは、厳密なクロスモーダル検証ではなく、単モーダル的な近道を取る傾向に起因する、視覚的バイアスやテキスト的バイアスを含むモダリティバイアスを示すことである。この問題に対処するため、我々はモダリティを意識した一貫性推論(MCR)を提案する。MCRは、マルチスタイル推論スキーマ注入(MRSI)と制約誘導型検証可能最適化(CVO)を通じて、構造化されたクロスモーダル推論を強制する。MRSIは抽象的な制約を実行可能な推論連鎖に変換し、CVOはモデルがグループ相対ポリシー最適化(GRPO)を用いてその推論軌跡を動的に調整することを可能にする。GMNERおよび視覚的接地タスクにおける実験により、MCRがモダリティバイアスを効果的に軽減し、既存のベースラインと比較して優れた性能を達成することが実証された。
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.
PDF61February 6, 2026