ChatPaper.aiChatPaper

I2CR: Intra- en Intermodale Collaboratieve Reflecties voor Multimodale Entiteitskoppeling

I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking

August 4, 2025
Auteurs: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu
cs.AI

Samenvatting

Multimodale entiteitskoppeling speelt een cruciale rol in een breed scala aan toepassingen. Recente vooruitgang in methoden gebaseerd op grote taalmodellen is het dominante paradigma geworden voor deze taak, waarbij zowel tekstuele als visuele modaliteiten effectief worden benut om de prestaties te verbeteren. Ondanks hun succes kampen deze methoden nog steeds met twee uitdagingen, waaronder de onnodige integratie van beeldgegevens in bepaalde scenario's en de afhankelijkheid van slechts een eenmalige extractie van visuele kenmerken, wat hun effectiviteit en nauwkeurigheid kan ondermijnen. Om deze uitdagingen aan te pakken, stellen we een nieuw LLM-gebaseerd raamwerk voor voor de multimodale entiteitskoppelingstaak, genaamd Intra- en Inter-modale Collaboratieve Reflecties. Dit raamwerk prioriteert het benutten van tekstinformatie om de taak aan te pakken. Wanneer tekst alleen onvoldoende is om de juiste entiteit te koppelen via intra- en inter-modaliteitsevaluaties, gebruikt het een multi-ronde iteratieve strategie die belangrijke visuele aanwijzingen uit verschillende aspecten van de afbeelding integreert om redenering te ondersteunen en de matchnauwkeurigheid te verbeteren. Uitgebreide experimenten op drie veelgebruikte openbare datasets tonen aan dat ons raamwerk consistent beter presteert dan de huidige state-of-the-art methoden voor deze taak, met verbeteringen van respectievelijk 3,2%, 5,1% en 1,6%. Onze code is beschikbaar op https://github.com/ziyan-xiaoyu/I2CR/.
English
Multimodal entity linking plays a crucial role in a wide range of applications. Recent advances in large language model-based methods have become the dominant paradigm for this task, effectively leveraging both textual and visual modalities to enhance performance. Despite their success, these methods still face two challenges, including unnecessary incorporation of image data in certain scenarios and the reliance only on a one-time extraction of visual features, which can undermine their effectiveness and accuracy. To address these challenges, we propose a novel LLM-based framework for the multimodal entity linking task, called Intra- and Inter-modal Collaborative Reflections. This framework prioritizes leveraging text information to address the task. When text alone is insufficient to link the correct entity through intra- and inter-modality evaluations, it employs a multi-round iterative strategy that integrates key visual clues from various aspects of the image to support reasoning and enhance matching accuracy. Extensive experiments on three widely used public datasets demonstrate that our framework consistently outperforms current state-of-the-art methods in the task, achieving improvements of 3.2%, 5.1%, and 1.6%, respectively. Our code is available at https://github.com/ziyan-xiaoyu/I2CR/.
PDF22August 8, 2025