ChatPaper.aiChatPaper

Jenseits unimodaler Abkürzungen: MLLMs als cross-modale Schlussfolgerer für geerdete Named Entity Recognition

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

February 4, 2026
papers.authors: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI

papers.abstract

Grounded Multimodal Named Entity Recognition (GMNER) zielt darauf ab, textbasierte Entitäten zu extrahieren, ihnen semantische Kategorien zuzuordnen und sie in entsprechenden Bildregionen zu verankern. In dieser Arbeit untersuchen wir das Potenzial Multimodaler Großer Sprachmodelle (MLLMs), GMNER auf end-to-end Weise durchzuführen, und gehen damit über ihre typische Rolle als Hilfswerkzeuge in kaskadierten Pipelines hinaus. Entscheidend ist, dass unsere Untersuchung eine grundlegende Herausforderung aufdeckt: MLLMs weisen eine Modalitätsverzerrung (Modality Bias) auf, einschließlich visueller und textueller Verzerrung, die daraus resultiert, dass sie eher unimodale Abkürzungen nehmen als eine rigorose cross-modale Verifikation durchzuführen. Um dies zu adressieren, schlagen wir Modalitätsbewusstes Konsistenzreasoning (Modality-aware Consistency Reasoning, MCR) vor, das strukturiertes cross-modales Reasoning durch Multi-Style Reasoning Schema Injection (MRSI) und Constraint-guided Verifiable Optimization (CVO) erzwingt. MRSI transformiert abstrakte Constraints in ausführbare Reasoning-Ketten, während CVO das Modell befähigt, seine Reasoning-Pfade dynamisch mit Group Relative Policy Optimization (GRPO) abzugleichen. Experimente zu GMNER- und Visual-Grounding-Aufgaben zeigen, dass MCR die Modalitätsverzerrung wirksam abschwächt und eine überlegene Leistung im Vergleich zu existierenden Baselines erzielt.
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.
PDF61February 6, 2026