ChatPaper.aiChatPaper

I2CR: Intra- und intermodale kollaborative Reflexionen für multimodales Entity Linking

I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking

August 4, 2025
papers.authors: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu
cs.AI

papers.abstract

Multimodale Entity Linking spielt eine entscheidende Rolle in einer Vielzahl von Anwendungen. Jüngste Fortschritte in Methoden, die auf großen Sprachmodellen basieren, haben sich zum dominierenden Paradigma für diese Aufgabe entwickelt, indem sie effektiv sowohl textuelle als auch visuelle Modalitäten nutzen, um die Leistung zu verbessern. Trotz ihres Erfolgs stehen diese Methoden weiterhin vor zwei Herausforderungen: die unnötige Einbeziehung von Bilddaten in bestimmten Szenarien und die ausschließliche Abhängigkeit von einer einmaligen Extraktion visueller Merkmale, was ihre Effektivität und Genauigkeit beeinträchtigen kann. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges, auf großen Sprachmodellen basierendes Framework für die multimodale Entity-Linking-Aufgabe vor, genannt Intra- und Inter-modale Kollaborative Reflexionen. Dieses Framework priorisiert die Nutzung von Textinformationen zur Bewältigung der Aufgabe. Wenn Text allein nicht ausreicht, um die richtige Entität durch intra- und inter-modale Bewertungen zu verknüpfen, setzt es eine mehrstufige iterative Strategie ein, die Schlüsselvisuelle Hinweise aus verschiedenen Aspekten des Bildes integriert, um die Argumentation zu unterstützen und die Übereinstimmungsgenauigkeit zu erhöhen. Umfangreiche Experimente auf drei weit verbreiteten öffentlichen Datensätzen zeigen, dass unser Framework durchweg die derzeit besten Methoden in dieser Aufgabe übertrifft und Verbesserungen von 3,2 %, 5,1 % bzw. 1,6 % erzielt. Unser Code ist verfügbar unter https://github.com/ziyan-xiaoyu/I2CR/.
English
Multimodal entity linking plays a crucial role in a wide range of applications. Recent advances in large language model-based methods have become the dominant paradigm for this task, effectively leveraging both textual and visual modalities to enhance performance. Despite their success, these methods still face two challenges, including unnecessary incorporation of image data in certain scenarios and the reliance only on a one-time extraction of visual features, which can undermine their effectiveness and accuracy. To address these challenges, we propose a novel LLM-based framework for the multimodal entity linking task, called Intra- and Inter-modal Collaborative Reflections. This framework prioritizes leveraging text information to address the task. When text alone is insufficient to link the correct entity through intra- and inter-modality evaluations, it employs a multi-round iterative strategy that integrates key visual clues from various aspects of the image to support reasoning and enhance matching accuracy. Extensive experiments on three widely used public datasets demonstrate that our framework consistently outperforms current state-of-the-art methods in the task, achieving improvements of 3.2%, 5.1%, and 1.6%, respectively. Our code is available at https://github.com/ziyan-xiaoyu/I2CR/.
PDF12August 8, 2025