Au-delà des raccourcis unimodaux : les MLLM comme raisonneurs intermodaux pour la reconnaissance d'entités nommées ancrée
Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition
February 4, 2026
papers.authors: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI
papers.abstract
La Reconnaissance d'Entités Nommées Multimodales Ancrée (GMNER) vise à extraire des entités textuelles, à leur attribuer des catégories sémantiques et à les ancrer dans des régions visuelles correspondantes. Dans ce travail, nous explorons le potentiel des Grands Modèles Linguistiques Multimodaux (MLLMs) pour réaliser la GMNER de manière end-to-end, au-delà de leur rôle typique d'outils auxiliaires dans des approches en cascade. Notre étude révèle un défi fondamental : les MLLMs présentent un biais de modalité, incluant un biais visuel et un biais textuel, qui découle de leur tendance à emprunter des raccourcis unimodaux plutôt qu'à effectuer une vérification multimodale rigoureuse. Pour y remédier, nous proposons le Raisonnement par Cohérence Sensible aux Modalités (MCR), qui impose un raisonnement multimodal structuré via l'Injection de Schémas de Raisonnement Multi-styles (MRSI) et l'Optimisation Vérifiable Guidée par Contraintes (CVO). MRSI transforme des contraintes abstraites en chaînes de raisonnement exécutables, tandis que CVO permet au modèle d'aligner dynamiquement ses trajectoires de raisonnement avec l'Optimisation de Politique Relative par Groupe (GRPO). Les expériences sur les tâches de GMNER et d'ancrage visuel démontrent que MCR atténue efficacement le biais de modalité et obtient des performances supérieures aux méthodes de référence existantes.
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.