Verständnis der Robustheit der Rückgewinnung für die rückgewinnungsgestützte Bildunterschriftenerstellung
Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning
June 4, 2024
Autoren: Wenyan Li, Jiaang Li, Rita Ramos, Raphael Tang, Desmond Elliott
cs.AI
Zusammenfassung
Neueste Fortschritte bei Abruf-erweiterten Modellen für die Bildunterschriftung heben den Nutzen hervor, verwandte Untertitel abzurufen, um effiziente, leichtgewichtige Modelle mit starken Domänen-Transferfähigkeiten zu erhalten. Obwohl diese Modelle den Erfolg der Abruf-Erweiterung zeigen, sind Abrufmodelle in der Praxis noch weit von der Perfektion entfernt: Die abgerufenen Informationen können manchmal das Modell in die Irre führen, was zu inkorrekter Generierung und schlechterer Leistung führt. In diesem Papier analysieren wir die Robustheit eines Abruf-erweiterten Bildunterschriftungsmodells namens SmallCap. Unsere Analyse zeigt, dass das Modell empfindlich auf Tokens reagiert, die in der Mehrheit der abgerufenen Untertitel erscheinen, und die Eingabeattribuierung zeigt, dass diese Tokens wahrscheinlich in die generierte Ausgabe kopiert werden. Aufgrund dieser Erkenntnisse schlagen wir vor, das Modell zu trainieren, indem wir abgerufene Untertitel aus vielfältigeren Sets auswählen. Dies verringert die Wahrscheinlichkeit, dass das Modell lernt, Mehrheitstokens zu kopieren, und verbessert sowohl die Leistung in der Domäne als auch den Domänenübergang.
English
Recent advances in retrieval-augmented models for image captioning highlight
the benefit of retrieving related captions for efficient, lightweight models
with strong domain-transfer capabilities. While these models demonstrate the
success of retrieval augmentation, retrieval models are still far from perfect
in practice: the retrieved information can sometimes mislead the model,
resulting in incorrect generation and worse performance. In this paper, we
analyze the robustness of a retrieval-augmented captioning model SmallCap. Our
analysis shows that the model is sensitive to tokens that appear in the
majority of the retrieved captions, and the input attribution shows that those
tokens are likely copied into the generated output. Given these findings, we
propose to train the model by sampling retrieved captions from more diverse
sets. This decreases the chance that the model learns to copy majority tokens,
and improves both in-domain and cross-domain performance.Summary
AI-Generated Summary