Guiando Modelos de Geração de Legendas de Imagens para Legendas Mais Específicas

Resumo

A geração de legendas para imagens é convencionalmente formulada como a tarefa de criar legendas para imagens que correspondam à distribuição de pares imagem-legenda de referência. No entanto, as legendas de referência em conjuntos de dados padrão de legendagem são curtas e podem não identificar de forma única as imagens que descrevem. Esses problemas são ainda mais exacerbados quando os modelos são treinados diretamente em pares imagem-texto alternativo coletados da internet. Neste trabalho, mostramos que é possível gerar legendas mais específicas com mudanças mínimas no processo de treinamento. Implementamos a orientação sem classificador para um modelo de legendagem autoregressivo, ajustando-o para estimar tanto distribuições condicionais quanto incondicionais sobre as legendas. A escala de orientação aplicada na decodificação controla uma troca entre maximizar p(legenda|imagem) e p(imagem|legenda). Em comparação com a decodificação gananciosa padrão, a decodificação com uma escala de orientação de 2 melhora substancialmente métricas independentes de referência, como o CLIPScore (0,808 vs. 0,775) e o desempenho de recuperação de legenda para imagem no espaço de incorporação CLIP (recall@1 44,6% vs. 26,5%), mas piora as métricas padrão de legendagem baseadas em referência (por exemplo, CIDEr 78,6 vs. 126,1). Exploramos ainda o uso de modelos de linguagem para orientar o processo de decodificação, obtendo pequenas melhorias sobre a fronteira de Pareto de métricas de legendagem independentes de referência versus baseadas em referência que surge da orientação sem classificador, e melhorando substancialmente a qualidade das legendas geradas por um modelo treinado apenas em dados da web minimamente curados.

English

Image captioning is conventionally formulated as the task of generating captions for images that match the distribution of reference image-caption pairs. However, reference captions in standard captioning datasets are short and may not uniquely identify the images they describe. These problems are further exacerbated when models are trained directly on image-alt text pairs collected from the internet. In this work, we show that it is possible to generate more specific captions with minimal changes to the training process. We implement classifier-free guidance for an autoregressive captioning model by fine-tuning it to estimate both conditional and unconditional distributions over captions. The guidance scale applied at decoding controls a trade-off between maximizing p(caption|image) and p(image|caption). Compared to standard greedy decoding, decoding with a guidance scale of 2 substantially improves reference-free metrics such as CLIPScore (0.808 vs. 0.775) and captiontoimage retrieval performance in the CLIP embedding space (recall@1 44.6% vs. 26.5%), but worsens standard reference-based captioning metrics (e.g., CIDEr 78.6 vs 126.1). We further explore the use of language models to guide the decoding process, obtaining small improvements over the Pareto frontier of reference-free vs. reference-based captioning metrics that arises from classifier-free guidance, and substantially improving the quality of captions generated from a model trained only on minimally curated web data.

Guiando Modelos de Geração de Legendas de Imagens para Legendas Mais Específicas

Guiding Image Captioning Models Toward More Specific Captions

Resumo

Support