Verständnis der Robustheit der Rückgewinnung für die rückgewinnungsgestützte Bildunterschriftenerstellung

papers.abstract

Neueste Fortschritte bei Abruf-erweiterten Modellen für die Bildunterschriftung heben den Nutzen hervor, verwandte Untertitel abzurufen, um effiziente, leichtgewichtige Modelle mit starken Domänen-Transferfähigkeiten zu erhalten. Obwohl diese Modelle den Erfolg der Abruf-Erweiterung zeigen, sind Abrufmodelle in der Praxis noch weit von der Perfektion entfernt: Die abgerufenen Informationen können manchmal das Modell in die Irre führen, was zu inkorrekter Generierung und schlechterer Leistung führt. In diesem Papier analysieren wir die Robustheit eines Abruf-erweiterten Bildunterschriftungsmodells namens SmallCap. Unsere Analyse zeigt, dass das Modell empfindlich auf Tokens reagiert, die in der Mehrheit der abgerufenen Untertitel erscheinen, und die Eingabeattribuierung zeigt, dass diese Tokens wahrscheinlich in die generierte Ausgabe kopiert werden. Aufgrund dieser Erkenntnisse schlagen wir vor, das Modell zu trainieren, indem wir abgerufene Untertitel aus vielfältigeren Sets auswählen. Dies verringert die Wahrscheinlichkeit, dass das Modell lernt, Mehrheitstokens zu kopieren, und verbessert sowohl die Leistung in der Domäne als auch den Domänenübergang.

English

Recent advances in retrieval-augmented models for image captioning highlight the benefit of retrieving related captions for efficient, lightweight models with strong domain-transfer capabilities. While these models demonstrate the success of retrieval augmentation, retrieval models are still far from perfect in practice: the retrieved information can sometimes mislead the model, resulting in incorrect generation and worse performance. In this paper, we analyze the robustness of a retrieval-augmented captioning model SmallCap. Our analysis shows that the model is sensitive to tokens that appear in the majority of the retrieved captions, and the input attribution shows that those tokens are likely copied into the generated output. Given these findings, we propose to train the model by sampling retrieved captions from more diverse sets. This decreases the chance that the model learns to copy majority tokens, and improves both in-domain and cross-domain performance.

Verständnis der Robustheit der Rückgewinnung für die rückgewinnungsgestützte Bildunterschriftenerstellung

Understanding Retrieval Robustness for Retrieval-Augmented Image Captioning

papers.abstract

Support