ChatPaper.aiChatPaper

Voorbij Unimodale Snelkoppelingen: MLLM's als Cross-modale Redeneerders voor Gegronde Herkenning van Eigennamen

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

February 4, 2026
Auteurs: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI

Samenvatting

Gegronde Multimodale Herkenning van Genoemde Entiteiten (GMNER) heeft tot doel op tekst gebaseerde entiteiten te extraheren, hun semantische categorieën toe te wijzen en ze te verankeren aan overeenkomstige visuele regio's. In dit werk onderzoeken we het potentieel van Multimodale Grote Taalmodellen (MLLM's) om GMNER op een end-to-end manier uit te voeren, verdergaand dan hun gebruikelijke rol als hulpmiddelen binnen gecascadeerde pijplijnen. Cruciaal is dat ons onderzoek een fundamentele uitdaging aan het licht brengt: MLLM's vertonen modaliteitsbias, waaronder visuele bias en tekstuele bias, die voortkomt uit hun neiging om unimodale snelkoppelingen te nemen in plaats van rigoureuze cross-modale verificatie. Om dit aan te pakken, stellen we Modaliteitsbewuste Consistentieredenering (MCR) voor, die gestructureerde cross-modale redenering afdwingt door Multi-stijl Redeneerschema-injectie (MRSI) en Begeleide Verifieerbare Optimalisatie (BVO). MRSI transformeert abstracte beperkingen in uitvoerbare redeneerketens, terwijl BVO het model in staat stelt om zijn redeneertrajecten dynamisch af te stemmen met Groepsrelatief Beleidsoptimalisatie (GRPO). Experimenten met GMNER en visuele verankeringstaken tonen aan dat MCR modaliteitsbias effectief vermindert en superieure prestaties bereikt in vergelijking met bestaande baseline-methoden.
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.
PDF61February 6, 2026