Oltre le scorciatoie unimodali: i MLLM come ragionatori cross-modali per il riconoscimento di entità nominate ancorato
Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition
February 4, 2026
Autori: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI
Abstract
La Riconoscimento di Entità Nominate Multimodale Radicato (GMNER) mira a estrarre entità basate su testo, assegnare loro categorie semantiche e ancorarle a corrispondenti regioni visive. In questo lavoro, esploriamo il potenziale dei Modelli Linguistici Multimodali di Grande Scala (MLLMs) per eseguire GMNER in modalità end-to-end, superando il loro ruolo tipico di strumenti ausiliari all'interno di pipeline a cascata. Crucialmente, la nostra indagine rivale una sfida fondamentale: gli MLLMs mostrano un bias modale, inclusi bias visivi e testuali, che deriva dalla loro tendenza a prendere scorciatoie unimodali piuttosto che effettuare una verifica cross-modale rigorosa. Per affrontare ciò, proponiamo il Ragionamento di Coerenza Consapevole della Modalità (MCR), che applica un ragionamento cross-modale strutturato attraverso l'Iniezione di Schemi di Ragionamento Multi-stile (MRSI) e l'Ottimizzazione Verificabile Guidata da Vincoli (CVO). MRSI trasforma vincoli astratti in catene di ragionamento eseguibili, mentre CVO consente al modello di allineare dinamicamente le sue traiettorie di ragionamento con l'Ottimizzazione delle Politiche Relative di Gruppo (GRPO). Esperimenti su compiti di GMNER e ancoraggio visivo dimostrano che MCR mitiga efficacemente il bias modale e raggiunge prestazioni superiori rispetto ai baseline esistenti.
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.