ChatPaper.aiChatPaper

Além de Atalhos Unimodais: MLLMs como Raciocinadores Intermodais para Reconhecimento de Entidades Mencionadas com Ancoragem

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition

February 4, 2026
Autores: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI

Resumo

A Detecção de Entidades Nomeadas Multimodal Aterrada (GMNER) tem como objetivo extrair entidades baseadas em texto, atribuir-lhes categorias semânticas e aterrá-las a regiões visuais correspondentes. Neste trabalho, exploramos o potencial dos Modelos de Linguagem Grandes Multimodais (MLLMs) para realizar GMNER de forma ponta a ponta, indo além do seu papel típico como ferramentas auxiliares em pipelines em cascata. Crucialmente, nossa investigação revela um desafio fundamental: os MLLMs exibem viés de modalidade, incluindo viés visual e viés textual, que decorre da sua tendência a tomar atalhos unimodais em vez de realizar uma verificação cruzada rigorosa. Para resolver isso, propomos o Raciocínio de Consistência com Consciência de Modalidade (MCR), que impõe um raciocínio cruzado estruturado através da Injeção de Esquemas de Raciocínio Multi-estilo (MRSI) e da Otimização Verificável Guiada por Restrições (CVO). O MRSI transforma restrições abstratas em cadeias de raciocínio executáveis, enquanto o CVO capacita o modelo a alinhar dinamicamente suas trajetórias de raciocínio com a Otimização de Política Relativa ao Grupo (GRPO). Experimentos em tarefas de GMNER e aterramento visual demonstram que o MCR mitiga efetivamente o viés de modalidade e alcança um desempenho superior em comparação com as linhas de base existentes.
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.
PDF63February 8, 2026