За пределами унимодальных упрощений: мультимодальные языковые модели как кросс-модальные системы логического вывода для контекстуального распознавания именованных сущностей
Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition
February 4, 2026
Авторы: Jinlong Ma, Yu Zhang, Xuefeng Bai, Kehai Chen, Yuwei Wang, Zeming Liu, Jun Yu, Min Zhang
cs.AI
Аннотация
Грунтованная мультимодальная идентификация именованных сущностей (GMNER) ставит целью извлечение текстовых сущностей, присвоение им семантических категорий и их привязку к соответствующим областям изображения. В данной работе мы исследуем потенциал мультимодальных больших языковых моделей (MLLM) для выполнения GMNER в сквозном режиме, выходя за рамки их традиционной роли вспомогательных инструментов в каскадных конвейерах. Ключевым результатом нашего исследования является выявление фундаментальной проблемы: MLLM демонстрируют модальную предвзятость, включая визуальную и текстовую, которая проистекает из их склонности использовать унимодальные сокращения вместо строгой кросс-модальной верификации. Для решения этой проблемы мы предлагаем метод согласованного модально-ориентированного рассуждения (Modality-aware Consistency Reasoning, MCR), который обеспечивает структурированное кросс-модальное рассуждение посредством инжекции многоуровневых схем рассуждения (Multi-style Reasoning Schema Injection, MRSI) и верифицируемой оптимизации с ограничениями (Constraint-guided Verifiable Optimization, CVO). MRSI преобразует абстрактные ограничения в исполняемые цепочки рассуждений, тогда как CVO позволяет модели динамически выравнивать свои траектории рассуждений с помощью оптимизации относительной групповой политики (Group Relative Policy Optimization, GRPO). Эксперименты на задачах GMNER и визуального grounding демонстрируют, что MCR эффективно снижает модальную предвзятость и превосходит по производительности существующие базовые методы.
English
Grounded Multimodal Named Entity Recognition (GMNER) aims to extract text-based entities, assign them semantic categories, and ground them to corresponding visual regions. In this work, we explore the potential of Multimodal Large Language Models (MLLMs) to perform GMNER in an end-to-end manner, moving beyond their typical role as auxiliary tools within cascaded pipelines. Crucially, our investigation reveals a fundamental challenge: MLLMs exhibit modality bias, including visual bias and textual bias, which stems from their tendency to take unimodal shortcuts rather than rigorous cross-modal verification. To address this, we propose Modality-aware Consistency Reasoning (MCR), which enforces structured cross-modal reasoning through Multi-style Reasoning Schema Injection (MRSI) and Constraint-guided Verifiable Optimization (CVO). MRSI transforms abstract constraints into executable reasoning chains, while CVO empowers the model to dynamically align its reasoning trajectories with Group Relative Policy Optimization (GRPO). Experiments on GMNER and visual grounding tasks demonstrate that MCR effectively mitigates modality bias and achieves superior performance compared to existing baselines.