I2CR: Reflexiones Colaborativas Intra e Intermodales para la Vinculación de Entidades Multimodales
I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking
August 4, 2025
Autores: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu
cs.AI
Resumen
La vinculación multimodal de entidades desempeña un papel crucial en una amplia gama de aplicaciones. Los avances recientes en los métodos basados en modelos de lenguaje de gran escala se han convertido en el paradigma dominante para esta tarea, aprovechando eficazmente tanto las modalidades textuales como visuales para mejorar el rendimiento. A pesar de su éxito, estos métodos aún enfrentan dos desafíos, que incluyen la incorporación innecesaria de datos de imágenes en ciertos escenarios y la dependencia exclusiva de una extracción única de características visuales, lo que puede socavar su efectividad y precisión. Para abordar estos desafíos, proponemos un marco novedoso basado en modelos de lenguaje de gran escala para la tarea de vinculación multimodal de entidades, denominado Reflexiones Colaborativas Intra e Intermodales. Este marco prioriza el aprovechamiento de la información textual para abordar la tarea. Cuando el texto por sí solo es insuficiente para vincular la entidad correcta a través de evaluaciones intra e intermodales, emplea una estrategia iterativa de múltiples rondas que integra pistas visuales clave de diversos aspectos de la imagen para apoyar el razonamiento y mejorar la precisión de la coincidencia. Experimentos exhaustivos en tres conjuntos de datos públicos ampliamente utilizados demuestran que nuestro marco supera consistentemente los métodos actuales más avanzados en la tarea, logrando mejoras del 3.2%, 5.1% y 1.6%, respectivamente. Nuestro código está disponible en https://github.com/ziyan-xiaoyu/I2CR/.
English
Multimodal entity linking plays a crucial role in a wide range of
applications. Recent advances in large language model-based methods have become
the dominant paradigm for this task, effectively leveraging both textual and
visual modalities to enhance performance. Despite their success, these methods
still face two challenges, including unnecessary incorporation of image data in
certain scenarios and the reliance only on a one-time extraction of visual
features, which can undermine their effectiveness and accuracy. To address
these challenges, we propose a novel LLM-based framework for the multimodal
entity linking task, called Intra- and Inter-modal Collaborative Reflections.
This framework prioritizes leveraging text information to address the task.
When text alone is insufficient to link the correct entity through intra- and
inter-modality evaluations, it employs a multi-round iterative strategy that
integrates key visual clues from various aspects of the image to support
reasoning and enhance matching accuracy. Extensive experiments on three widely
used public datasets demonstrate that our framework consistently outperforms
current state-of-the-art methods in the task, achieving improvements of 3.2%,
5.1%, and 1.6%, respectively. Our code is available at
https://github.com/ziyan-xiaoyu/I2CR/.