ChatPaper.aiChatPaper

I2CR: Reflexões Colaborativas Intra e Intermodais para Vinculação de Entidades Multimodais

I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking

August 4, 2025
Autores: Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu
cs.AI

Resumo

A vinculação de entidades multimodais desempenha um papel crucial em uma ampla gama de aplicações. Avanços recentes em métodos baseados em modelos de linguagem de grande escala tornaram-se o paradigma dominante para essa tarefa, aproveitando efetivamente tanto as modalidades textuais quanto visuais para melhorar o desempenho. Apesar do sucesso, esses métodos ainda enfrentam dois desafios, incluindo a incorporação desnecessária de dados de imagem em certos cenários e a dependência apenas de uma extração única de características visuais, o que pode comprometer sua eficácia e precisão. Para abordar esses desafios, propomos uma nova estrutura baseada em LLM para a tarefa de vinculação de entidades multimodais, chamada Reflexões Colaborativas Intra e Intermodais. Essa estrutura prioriza o aproveitamento de informações textuais para resolver a tarefa. Quando o texto por si só é insuficiente para vincular a entidade correta por meio de avaliações intra e intermodais, ela emprega uma estratégia iterativa de múltiplas rodadas que integra pistas visuais-chave de vários aspectos da imagem para apoiar o raciocínio e aumentar a precisão da correspondência. Experimentos extensos em três conjuntos de dados públicos amplamente utilizados demonstram que nossa estrutura supera consistentemente os métodos state-of-the-art atuais na tarefa, alcançando melhorias de 3,2%, 5,1% e 1,6%, respectivamente. Nosso código está disponível em https://github.com/ziyan-xiaoyu/I2CR/.
English
Multimodal entity linking plays a crucial role in a wide range of applications. Recent advances in large language model-based methods have become the dominant paradigm for this task, effectively leveraging both textual and visual modalities to enhance performance. Despite their success, these methods still face two challenges, including unnecessary incorporation of image data in certain scenarios and the reliance only on a one-time extraction of visual features, which can undermine their effectiveness and accuracy. To address these challenges, we propose a novel LLM-based framework for the multimodal entity linking task, called Intra- and Inter-modal Collaborative Reflections. This framework prioritizes leveraging text information to address the task. When text alone is insufficient to link the correct entity through intra- and inter-modality evaluations, it employs a multi-round iterative strategy that integrates key visual clues from various aspects of the image to support reasoning and enhance matching accuracy. Extensive experiments on three widely used public datasets demonstrate that our framework consistently outperforms current state-of-the-art methods in the task, achieving improvements of 3.2%, 5.1%, and 1.6%, respectively. Our code is available at https://github.com/ziyan-xiaoyu/I2CR/.
PDF22August 8, 2025