검색 강화 이미지 캡션 생성을 위한 검색 견고성 이해
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning
June 4, 2024
저자: Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott
cs.AI
초록
이미지 캡셔닝을 위한 검색 강화 모델의 최근 발전은 관련 캡션을 검색함으로써 효율적이고 경량화된 모델이 강력한 도메인 전이 능력을 갖출 수 있다는 이점을 강조합니다. 이러한 모델들은 검색 강화의 성공을 입증하지만, 실제로 검색 모델은 여전히 완벽과는 거리가 있습니다: 검색된 정보가 때로는 모델을 오도하여 잘못된 생성과 더 나쁜 성능을 초래할 수 있습니다. 본 논문에서는 검색 강화 캡셔닝 모델인 SmallCap의 견고성을 분석합니다. 우리의 분석에 따르면, 이 모델은 검색된 캡션의 대다수에 나타나는 토큰에 민감하며, 입력 속성 분석은 이러한 토큰들이 생성된 출력에 복사될 가능성이 높음을 보여줍니다. 이러한 발견을 바탕으로, 우리는 더 다양한 집단에서 검색된 캡션을 샘플링하여 모델을 훈련할 것을 제안합니다. 이는 모델이 다수 토큰을 복사하는 것을 학습할 가능성을 줄이고, 도메인 내 및 도메인 간 성능을 모두 개선합니다.
English
Recent advances in retrieval-augmented models for image captioning highlight
the benefit of retrieving related captions for efficient, lightweight models
with strong domain-transfer capabilities. While these models demonstrate the
success of retrieval augmentation, retrieval models are still far from perfect
in practice: the retrieved information can sometimes mislead the model,
resulting in incorrect generation and worse performance. In this paper, we
analyze the robustness of a retrieval-augmented captioning model SmallCap. Our
analysis shows that the model is sensitive to tokens that appear in the
majority of the retrieved captions, and the input attribution shows that those
tokens are likely copied into the generated output. Given these findings, we
propose to train the model by sampling retrieved captions from more diverse
sets. This decreases the chance that the model learns to copy majority tokens,
and improves both in-domain and cross-domain performance.Summary
AI-Generated Summary