Uma Imagem Vale Mais que Mil Palavras: Recaptioning Baseado em Princípios Melhora a Geração de Imagens
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
October 25, 2023
Autores: Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan
cs.AI
Resumo
Modelos de difusão texto-imagem alcançaram um salto notável em capacidades
nos últimos anos, permitindo a síntese de imagens de alta qualidade e diversidade
a partir de um prompt textual. No entanto, mesmo os modelos mais avançados
frequentemente lutam para seguir precisamente todas as instruções em seus prompts.
A grande maioria desses modelos é treinada em conjuntos de dados compostos por
pares (imagem, legenda), onde as imagens geralmente vêm da web, e as legendas
são seus textos alternativos HTML. Um exemplo notável é o conjunto de dados LAION,
usado pelo Stable Diffusion e outros modelos. Neste trabalho, observamos que
essas legendas são frequentemente de baixa qualidade e argumentamos que isso
afeta significativamente a capacidade do modelo de entender semânticas sutis
nos prompts textuais. Mostramos que, ao rotular novamente o corpus com um modelo
especializado de legendagem automática e treinar um modelo texto-imagem no
conjunto de dados relegendado, o modelo se beneficia substancialmente em todos
os aspectos. Primeiro, na qualidade geral da imagem: por exemplo, FID 14,84
versus a linha de base de 17,87, e uma melhoria de 64,3% na geração fiel de
imagens de acordo com avaliação humana. Segundo, no alinhamento semântico, por
exemplo, precisão de objetos semânticos 84,34 versus 78,90, erros de alinhamento
de contagem 1,32 versus 1,44 e alinhamento posicional 62,42 versus 57,60.
Analisamos várias maneiras de rotular novamente o corpus e fornecemos evidências
de que essa técnica, que chamamos de RECAP, tanto reduz a discrepância entre
treinamento e inferência quanto fornece ao modelo mais informações por exemplo,
aumentando a eficiência amostral e permitindo que o modelo entenda melhor as
relações entre legendas e imagens.
English
Text-to-image diffusion models achieved a remarkable leap in capabilities
over the last few years, enabling high-quality and diverse synthesis of images
from a textual prompt. However, even the most advanced models often struggle to
precisely follow all of the directions in their prompts. The vast majority of
these models are trained on datasets consisting of (image, caption) pairs where
the images often come from the web, and the captions are their HTML alternate
text. A notable example is the LAION dataset, used by Stable Diffusion and
other models. In this work we observe that these captions are often of low
quality, and argue that this significantly affects the model's capability to
understand nuanced semantics in the textual prompts. We show that by relabeling
the corpus with a specialized automatic captioning model and training a
text-to-image model on the recaptioned dataset, the model benefits
substantially across the board. First, in overall image quality: e.g. FID 14.84
vs. the baseline of 17.87, and 64.3% improvement in faithful image generation
according to human evaluation. Second, in semantic alignment, e.g. semantic
object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and
positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the
corpus and provide evidence that this technique, which we call RECAP, both
reduces the train-inference discrepancy and provides the model with more
information per example, increasing sample efficiency and allowing the model to
better understand the relations between captions and images.