ChatPaper.aiChatPaper

Uma Imagem Vale Mais que Mil Palavras: Recaptioning Baseado em Princípios Melhora a Geração de Imagens

A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation

October 25, 2023
Autores: Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan
cs.AI

Resumo

Modelos de difusão texto-imagem alcançaram um salto notável em capacidades nos últimos anos, permitindo a síntese de imagens de alta qualidade e diversidade a partir de um prompt textual. No entanto, mesmo os modelos mais avançados frequentemente lutam para seguir precisamente todas as instruções em seus prompts. A grande maioria desses modelos é treinada em conjuntos de dados compostos por pares (imagem, legenda), onde as imagens geralmente vêm da web, e as legendas são seus textos alternativos HTML. Um exemplo notável é o conjunto de dados LAION, usado pelo Stable Diffusion e outros modelos. Neste trabalho, observamos que essas legendas são frequentemente de baixa qualidade e argumentamos que isso afeta significativamente a capacidade do modelo de entender semânticas sutis nos prompts textuais. Mostramos que, ao rotular novamente o corpus com um modelo especializado de legendagem automática e treinar um modelo texto-imagem no conjunto de dados relegendado, o modelo se beneficia substancialmente em todos os aspectos. Primeiro, na qualidade geral da imagem: por exemplo, FID 14,84 versus a linha de base de 17,87, e uma melhoria de 64,3% na geração fiel de imagens de acordo com avaliação humana. Segundo, no alinhamento semântico, por exemplo, precisão de objetos semânticos 84,34 versus 78,90, erros de alinhamento de contagem 1,32 versus 1,44 e alinhamento posicional 62,42 versus 57,60. Analisamos várias maneiras de rotular novamente o corpus e fornecemos evidências de que essa técnica, que chamamos de RECAP, tanto reduz a discrepância entre treinamento e inferência quanto fornece ao modelo mais informações por exemplo, aumentando a eficiência amostral e permitindo que o modelo entenda melhor as relações entre legendas e imagens.
English
Text-to-image diffusion models achieved a remarkable leap in capabilities over the last few years, enabling high-quality and diverse synthesis of images from a textual prompt. However, even the most advanced models often struggle to precisely follow all of the directions in their prompts. The vast majority of these models are trained on datasets consisting of (image, caption) pairs where the images often come from the web, and the captions are their HTML alternate text. A notable example is the LAION dataset, used by Stable Diffusion and other models. In this work we observe that these captions are often of low quality, and argue that this significantly affects the model's capability to understand nuanced semantics in the textual prompts. We show that by relabeling the corpus with a specialized automatic captioning model and training a text-to-image model on the recaptioned dataset, the model benefits substantially across the board. First, in overall image quality: e.g. FID 14.84 vs. the baseline of 17.87, and 64.3% improvement in faithful image generation according to human evaluation. Second, in semantic alignment, e.g. semantic object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the corpus and provide evidence that this technique, which we call RECAP, both reduces the train-inference discrepancy and provides the model with more information per example, increasing sample efficiency and allowing the model to better understand the relations between captions and images.
PDF491December 15, 2024