Направление моделей генерации подписей к изображениям в сторону более детализированных описаний
Guiding Image Captioning Models Toward More Specific Captions
July 31, 2023
Авторы: Simon Kornblith, Lala Li, Zirui Wang, Thao Nguyen
cs.AI
Аннотация
Генерация подписей к изображениям традиционно формулируется как задача создания описаний, соответствующих распределению пар "изображение-подпись" из эталонных данных. Однако подписи в стандартных наборах данных для генерации описаний часто короткие и могут не однозначно идентифицировать изображения, которые они описывают. Эти проблемы усугубляются, когда модели обучаются непосредственно на парах "изображение-альтернативный текст", собранных из интернета. В данной работе мы показываем, что можно генерировать более специфичные подписи с минимальными изменениями в процессе обучения. Мы реализуем метод классификатор-фри гида для авторегрессионной модели генерации подписей, дообучая её для оценки как условного, так и безусловного распределений над подписями. Масштаб гида, применяемый на этапе декодирования, контролирует компромисс между максимизацией p(подпись|изображение) и p(изображение|подпись). По сравнению со стандартным жадным декодированием, декодирование с масштабом гида, равным 2, значительно улучшает метрики, не зависящие от эталонных данных, такие как CLIPScore (0.808 против 0.775) и производительность поиска изображений по подписям в пространстве эмбеддингов CLIP (recall@1 44.6% против 26.5%), но ухудшает стандартные метрики, основанные на эталонных данных (например, CIDEr 78.6 против 126.1). Мы также исследуем использование языковых моделей для управления процессом декодирования, получая небольшие улучшения по сравнению с Парето-фронтом метрик, не зависящих от эталонных данных и основанных на них, который возникает при использовании классификатор-фри гида, и значительно повышая качество подписей, сгенерированных моделью, обученной только на минимально обработанных веб-данных.
English
Image captioning is conventionally formulated as the task of generating
captions for images that match the distribution of reference image-caption
pairs. However, reference captions in standard captioning datasets are short
and may not uniquely identify the images they describe. These problems are
further exacerbated when models are trained directly on image-alt text pairs
collected from the internet. In this work, we show that it is possible to
generate more specific captions with minimal changes to the training process.
We implement classifier-free guidance for an autoregressive captioning model by
fine-tuning it to estimate both conditional and unconditional distributions
over captions. The guidance scale applied at decoding controls a trade-off
between maximizing p(caption|image) and
p(image|caption). Compared to standard greedy decoding,
decoding with a guidance scale of 2 substantially improves reference-free
metrics such as CLIPScore (0.808 vs. 0.775) and captiontoimage retrieval
performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens
standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We
further explore the use of language models to guide the decoding process,
obtaining small improvements over the Pareto frontier of reference-free vs.
reference-based captioning metrics that arises from classifier-free guidance,
and substantially improving the quality of captions generated from a model
trained only on minimally curated web data.