ChatPaper.aiChatPaper

Понимание устойчивости поиска для поисково-дополненного описания изображений

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

June 4, 2024
Авторы: Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott
cs.AI

Аннотация

Недавние достижения в моделях с извлечением информации для описания изображений подчеркивают пользу извлечения связанных описаний для создания эффективных, легких моделей с сильными возможностями переноса области. Хотя эти модели демонстрируют успех извлечения информации, модели извлечения все еще далеки от идеальных на практике: извлеченная информация иногда может ввести модель в заблуждение, что приводит к неправильной генерации и ухудшению производительности. В данной статье мы анализируем устойчивость модели описания изображений SmallCap с извлечением информации. Наш анализ показывает, что модель чувствительна к токенам, которые появляются в большинстве извлеченных описаний, и атрибуция ввода показывает, что эти токены вероятно копируются в сгенерированный вывод. Учитывая эти результаты, мы предлагаем обучать модель, выбирая извлеченные описания из более разнообразных наборов. Это снижает вероятность того, что модель научится копировать основные токены, и улучшает как производительность внутри области, так и междоменную производительность.
English
Recent advances in retrieval-augmented models for image captioning highlight the benefit of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While these models demonstrate the success of retrieval augmentation, retrieval models are still far from perfect in practice: the retrieved information can sometimes mislead the model, resulting in incorrect generation and worse performance. In this paper, we analyze the robustness of a retrieval-augmented captioning model SmallCap. Our analysis shows that the model is sensitive to tokens that appear in the majority of the retrieved captions, and the input attribution shows that those tokens are likely copied into the generated output. Given these findings, we propose to train the model by sampling retrieved captions from more diverse sets. This decreases the chance that the model learns to copy majority tokens, and improves both in-domain and cross-domain performance.

Summary

AI-Generated Summary

PDF72November 28, 2024