ChatPaper.aiChatPaper

Leitfaden für Bildbeschreibungsmodelle hin zu spezifischeren Beschreibungen

Guiding Image Captioning Models Toward More Specific Captions

July 31, 2023
Autoren: Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen
cs.AI

Zusammenfassung

Die Bildbeschreibung wird konventionell als die Aufgabe formuliert, Bildunterschriften zu generieren, die der Verteilung von Referenz-Bild-Beschreibungs-Paaren entsprechen. Referenzbeschreibungen in standardisierten Beschreibungsdatensätzen sind jedoch kurz und identifizieren die beschriebenen Bilder möglicherweise nicht eindeutig. Diese Probleme werden weiter verschärft, wenn Modelle direkt auf Bild-Alt-Text-Paaren trainiert werden, die aus dem Internet gesammelt wurden. In dieser Arbeit zeigen wir, dass es möglich ist, spezifischere Beschreibungen mit minimalen Änderungen am Trainingsprozess zu generieren. Wir implementieren eine klassifikatorfreie Steuerung für ein autoregressives Beschreibungsmodell, indem wir es feinabstimmen, um sowohl bedingte als auch unbedingte Verteilungen über Beschreibungen zu schätzen. Der beim Decodieren angewendete Steuerungsmaßstab kontrolliert einen Kompromiss zwischen der Maximierung von p(Beschreibung|Bild) und p(Bild|Beschreibung). Im Vergleich zur standardmäßigen gierigen Decodierung verbessert die Decodierung mit einem Steuerungsmaßstab von 2 referenzfreie Metriken wie CLIPScore (0,808 vs. 0,775) und die Leistung der Beschreibungs-zu-Bild-Rückgewinnung im CLIP-Einbettungsraum (Recall@1 44,6 % vs. 26,5 %) erheblich, verschlechtert jedoch standardmäßige referenzbasierte Beschreibungsmetriken (z. B. CIDEr 78,6 vs. 126,1). Wir untersuchen weiterhin die Verwendung von Sprachmodellen, um den Decodierungsprozess zu steuern, und erzielen kleine Verbesserungen gegenüber der Pareto-Grenze von referenzfreien vs. referenzbasierten Beschreibungsmetriken, die sich aus der klassifikatorfreien Steuerung ergibt, und verbessern die Qualität der Beschreibungen, die von einem Modell generiert werden, das nur auf minimal kuratierten Webdaten trainiert wurde, erheblich.
English
Image captioning is conventionally formulated as the task of generating captions for images that match the distribution of reference image-caption pairs. However, reference captions in standard captioning datasets are short and may not uniquely identify the images they describe. These problems are further exacerbated when models are trained directly on image-alt text pairs collected from the internet. In this work, we show that it is possible to generate more specific captions with minimal changes to the training process. We implement classifier-free guidance for an autoregressive captioning model by fine-tuning it to estimate both conditional and unconditional distributions over captions. The guidance scale applied at decoding controls a trade-off between maximizing p(caption|image) and p(image|caption). Compared to standard greedy decoding, decoding with a guidance scale of 2 substantially improves reference-free metrics such as CLIPScore (0.808 vs. 0.775) and captiontoimage retrieval performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We further explore the use of language models to guide the decoding process, obtaining small improvements over the Pareto frontier of reference-free vs. reference-based captioning metrics that arises from classifier-free guidance, and substantially improving the quality of captions generated from a model trained only on minimally curated web data.
PDF162December 15, 2024