I2CR: Riflessioni Collaborative Intra- e Inter-modali per il Collegamento di Entità Multimodali
I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking
August 4, 2025
Autori: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu
cs.AI
Abstract
Il collegamento multimodale di entità svolge un ruolo cruciale in un'ampia gamma di applicazioni. I recenti progressi nei metodi basati su modelli linguistici di grandi dimensioni sono diventati il paradigma dominante per questo compito, sfruttando efficacemente sia le modalità testuali che visive per migliorare le prestazioni. Nonostante il loro successo, questi metodi affrontano ancora due sfide, tra cui l'incorporazione non necessaria di dati immagine in determinati scenari e la dipendenza solo da un'estrazione una tantum di caratteristiche visive, che può comprometterne l'efficacia e l'accuratezza. Per affrontare queste sfide, proponiamo un nuovo framework basato su LLM per il compito di collegamento multimodale di entità, chiamato Intra- and Inter-modal Collaborative Reflections. Questo framework dà priorità allo sfruttamento delle informazioni testuali per affrontare il compito. Quando il testo da solo non è sufficiente per collegare l'entità corretta attraverso valutazioni intra- e inter-modalità, utilizza una strategia iterativa multi-round che integra indizi visivi chiave da vari aspetti dell'immagine per supportare il ragionamento e migliorare l'accuratezza del matching. Esperimenti estesi su tre ampiamente utilizzati dataset pubblici dimostrano che il nostro framework supera costantemente i metodi attuali all'avanguardia nel compito, ottenendo miglioramenti rispettivamente del 3,2%, 5,1% e 1,6%. Il nostro codice è disponibile all'indirizzo https://github.com/ziyan-xiaoyu/I2CR/.
English
Multimodal entity linking plays a crucial role in a wide range of
applications. Recent advances in large language model-based methods have become
the dominant paradigm for this task, effectively leveraging both textual and
visual modalities to enhance performance. Despite their success, these methods
still face two challenges, including unnecessary incorporation of image data in
certain scenarios and the reliance only on a one-time extraction of visual
features, which can undermine their effectiveness and accuracy. To address
these challenges, we propose a novel LLM-based framework for the multimodal
entity linking task, called Intra- and Inter-modal Collaborative Reflections.
This framework prioritizes leveraging text information to address the task.
When text alone is insufficient to link the correct entity through intra- and
inter-modality evaluations, it employs a multi-round iterative strategy that
integrates key visual clues from various aspects of the image to support
reasoning and enhance matching accuracy. Extensive experiments on three widely
used public datasets demonstrate that our framework consistently outperforms
current state-of-the-art methods in the task, achieving improvements of 3.2%,
5.1%, and 1.6%, respectively. Our code is available at
https://github.com/ziyan-xiaoyu/I2CR/.