I2CR : Réflexions collaboratives intra- et inter-modales pour l’alignement d’entités multimodales
I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking
August 4, 2025
papers.authors: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu
cs.AI
papers.abstract
Le lien d'entités multimodale joue un rôle crucial dans un large éventail d'applications. Les récents progrès des méthodes basées sur des modèles de langage de grande envergure sont devenus le paradigme dominant pour cette tâche, exploitant efficacement à la fois les modalités textuelles et visuelles pour améliorer les performances. Malgré leur succès, ces méthodes sont encore confrontées à deux défis, notamment l'incorporation inutile de données d'image dans certains scénarios et la dépendance uniquement à une extraction unique des caractéristiques visuelles, ce qui peut compromettre leur efficacité et leur précision. Pour relever ces défis, nous proposons un nouveau cadre basé sur un modèle de langage de grande envergure pour la tâche de lien d'entités multimodale, appelé Réflexions Collaboratives Intra- et Inter-modales. Ce cadre priorise l'exploitation des informations textuelles pour accomplir la tâche. Lorsque le texte seul est insuffisant pour lier l'entité correcte à travers des évaluations intra- et inter-modales, il emploie une stratégie itérative multi-tours qui intègre des indices visuels clés provenant de divers aspects de l'image pour soutenir le raisonnement et améliorer la précision de la correspondance. Des expériences approfondies sur trois ensembles de données publics largement utilisés démontrent que notre cadre surpasse systématiquement les méthodes actuelles les plus avancées dans la tâche, obtenant des améliorations de 3,2 %, 5,1 % et 1,6 %, respectivement. Notre code est disponible à l'adresse https://github.com/ziyan-xiaoyu/I2CR/.
English
Multimodal entity linking plays a crucial role in a wide range of
applications. Recent advances in large language model-based methods have become
the dominant paradigm for this task, effectively leveraging both textual and
visual modalities to enhance performance. Despite their success, these methods
still face two challenges, including unnecessary incorporation of image data in
certain scenarios and the reliance only on a one-time extraction of visual
features, which can undermine their effectiveness and accuracy. To address
these challenges, we propose a novel LLM-based framework for the multimodal
entity linking task, called Intra- and Inter-modal Collaborative Reflections.
This framework prioritizes leveraging text information to address the task.
When text alone is insufficient to link the correct entity through intra- and
inter-modality evaluations, it employs a multi-round iterative strategy that
integrates key visual clues from various aspects of the image to support
reasoning and enhance matching accuracy. Extensive experiments on three widely
used public datasets demonstrate that our framework consistently outperforms
current state-of-the-art methods in the task, achieving improvements of 3.2%,
5.1%, and 1.6%, respectively. Our code is available at
https://github.com/ziyan-xiaoyu/I2CR/.