I2CR: Внутри- и межмодальные совместные рефлексии для мультимодального связывания сущностей
I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking
August 4, 2025
Авторы: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu
cs.AI
Аннотация
Мультимодальное связывание сущностей играет ключевую роль в широком спектре приложений. Недавние достижения в методах, основанных на крупных языковых моделях, стали доминирующей парадигмой для этой задачи, эффективно используя как текстовые, так и визуальные модальности для повышения производительности. Несмотря на их успех, эти методы всё ещё сталкиваются с двумя проблемами: излишним использованием данных изображений в определённых сценариях и зависимостью только от однократного извлечения визуальных признаков, что может снижать их эффективность и точность. Для решения этих проблем мы предлагаем новую LLM-основанную структуру для задачи мультимодального связывания сущностей, называемую Intra- and Inter-modal Collaborative Reflections (Внутри- и межмодальные совместные размышления). Эта структура делает акцент на использовании текстовой информации для выполнения задачи. Когда текста недостаточно для связывания правильной сущности через внутри- и межмодальные оценки, она применяет многораундовую итеративную стратегию, которая интегрирует ключевые визуальные подсказки из различных аспектов изображения для поддержки рассуждений и повышения точности сопоставления. Экстенсивные эксперименты на трёх широко используемых публичных наборах данных демонстрируют, что наша структура стабильно превосходит современные методы в этой задаче, достигая улучшений на 3,2%, 5,1% и 1,6% соответственно. Наш код доступен по адресу https://github.com/ziyan-xiaoyu/I2CR/.
English
Multimodal entity linking plays a crucial role in a wide range of
applications. Recent advances in large language model-based methods have become
the dominant paradigm for this task, effectively leveraging both textual and
visual modalities to enhance performance. Despite their success, these methods
still face two challenges, including unnecessary incorporation of image data in
certain scenarios and the reliance only on a one-time extraction of visual
features, which can undermine their effectiveness and accuracy. To address
these challenges, we propose a novel LLM-based framework for the multimodal
entity linking task, called Intra- and Inter-modal Collaborative Reflections.
This framework prioritizes leveraging text information to address the task.
When text alone is insufficient to link the correct entity through intra- and
inter-modality evaluations, it employs a multi-round iterative strategy that
integrates key visual clues from various aspects of the image to support
reasoning and enhance matching accuracy. Extensive experiments on three widely
used public datasets demonstrate that our framework consistently outperforms
current state-of-the-art methods in the task, achieving improvements of 3.2%,
5.1%, and 1.6%, respectively. Our code is available at
https://github.com/ziyan-xiaoyu/I2CR/.