ChatPaper.aiChatPaper

Compreensão da Robustez de Recuperação para Legendagem de Imagens Aprimorada por Recuperação

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

June 4, 2024
Autores: Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott
cs.AI

Resumo

Os avanços recentes em modelos de recuperação aprimorados para legendagem de imagens destacam o benefício de recuperar legendas relacionadas para modelos eficientes e leves com fortes capacidades de transferência de domínio. Embora esses modelos demonstrem o sucesso do aprimoramento por recuperação, os modelos de recuperação ainda estão longe da perfeição na prática: as informações recuperadas às vezes podem induzir o modelo ao erro, resultando em geração incorreta e desempenho inferior. Neste artigo, analisamos a robustez de um modelo de legendagem aprimorado por recuperação chamado SmallCap. Nossa análise mostra que o modelo é sensível a tokens que aparecem na maioria das legendas recuperadas, e a atribuição de entrada mostra que esses tokens provavelmente são copiados para a saída gerada. Diante dessas descobertas, propomos treinar o modelo amostrando legendas recuperadas de conjuntos mais diversos. Isso reduz a chance de o modelo aprender a copiar tokens majoritários e melhora tanto o desempenho em domínio quanto em transferência de domínio.
English
Recent advances in retrieval-augmented models for image captioning highlight the benefit of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While these models demonstrate the success of retrieval augmentation, retrieval models are still far from perfect in practice: the retrieved information can sometimes mislead the model, resulting in incorrect generation and worse performance. In this paper, we analyze the robustness of a retrieval-augmented captioning model SmallCap. Our analysis shows that the model is sensitive to tokens that appear in the majority of the retrieved captions, and the input attribution shows that those tokens are likely copied into the generated output. Given these findings, we propose to train the model by sampling retrieved captions from more diverse sets. This decreases the chance that the model learns to copy majority tokens, and improves both in-domain and cross-domain performance.
PDF72November 28, 2024