ChatPaper.aiChatPaper

Más allá de los atajos unimodales: Los MLLM como razonadores cross-modales para el reconocimiento de entidades nombradas fundamentado

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

February 4, 2026
Autores: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI

Resumen

La Reconocimiento de Entidades Nombradas Multimodal con Anclaje Visual (GMNER) tiene como objetivo extraer entidades basadas en texto, asignarles categorías semánticas y anclarlas a regiones visuales correspondientes. En este trabajo, exploramos el potencial de los Modelos de Lenguaje Grandes Multimodales (MLLMs) para realizar GMNER de manera integral, yendo más allá de su papel típico como herramientas auxiliares dentro de pipelines en cascada. De manera crucial, nuestra investigación revela un desafío fundamental: los MLLMs exhiben un sesgo de modalidad, que incluye sesgo visual y sesgo textual, el cual surge de su tendencia a tomar atajos unimodales en lugar de realizar una verificación cruzada rigurosa. Para abordar esto, proponemos el Razonamiento de Consciencia de Modalidad (MCR), que impone un razonamiento cruzado estructurado mediante la Inyección de Esquemas de Razonamiento Multi-estilo (MRSI) y la Optimización Verificable Guiada por Restricciones (CVO). MRSI transforma restricciones abstractas en cadenas de razonamiento ejecutables, mientras que CVO capacita al modelo para alinear dinámicamente sus trayectorias de razonamiento con la Optimización de Política Relativa Grupal (GRPO). Experimentos en tareas de GMNER y anclaje visual demuestran que MCR mitiga efectivamente el sesgo de modalidad y logra un rendimiento superior en comparación con los baselines existentes.
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.
PDF61February 6, 2026