Una imagen vale más que mil palabras: El recaptioning basado en principios mejora la generación de imágenes
A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
October 25, 2023
Autores: Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan
cs.AI
Resumen
Los modelos de difusión de texto a imagen han logrado un avance notable en sus capacidades durante los últimos años, permitiendo la síntesis de imágenes de alta calidad y diversidad a partir de un texto descriptivo. Sin embargo, incluso los modelos más avanzados suelen tener dificultades para seguir con precisión todas las instrucciones en sus textos de entrada. La gran mayoría de estos modelos se entrenan en conjuntos de datos que consisten en pares (imagen, descripción), donde las imágenes suelen provenir de la web y las descripciones son sus textos alternativos HTML. Un ejemplo destacado es el conjunto de datos LAION, utilizado por Stable Diffusion y otros modelos. En este trabajo observamos que estas descripciones suelen ser de baja calidad y argumentamos que esto afecta significativamente la capacidad del modelo para comprender la semántica matizada en los textos de entrada. Demostramos que, al etiquetar nuevamente el corpus con un modelo especializado de generación automática de descripciones y entrenar un modelo de texto a imagen en el conjunto de datos reetiquetado, el modelo se beneficia sustancialmente en todos los aspectos. Primero, en la calidad general de la imagen: por ejemplo, un FID de 14.84 frente al valor de referencia de 17.87, y una mejora del 64.3% en la generación fiel de imágenes según la evaluación humana. Segundo, en la alineación semántica: por ejemplo, precisión en objetos semánticos de 84.34 frente a 78.90, errores de alineación en conteo de 1.32 frente a 1.44 y alineación posicional de 62.42 frente a 57.60. Analizamos diversas formas de reetiquetar el corpus y proporcionamos evidencia de que esta técnica, que llamamos RECAP, reduce la discrepancia entre entrenamiento e inferencia y proporciona al modelo más información por ejemplo, aumentando la eficiencia de las muestras y permitiendo que el modelo comprenda mejor las relaciones entre las descripciones y las imágenes.
English
Text-to-image diffusion models achieved a remarkable leap in capabilities
over the last few years, enabling high-quality and diverse synthesis of images
from a textual prompt. However, even the most advanced models often struggle to
precisely follow all of the directions in their prompts. The vast majority of
these models are trained on datasets consisting of (image, caption) pairs where
the images often come from the web, and the captions are their HTML alternate
text. A notable example is the LAION dataset, used by Stable Diffusion and
other models. In this work we observe that these captions are often of low
quality, and argue that this significantly affects the model's capability to
understand nuanced semantics in the textual prompts. We show that by relabeling
the corpus with a specialized automatic captioning model and training a
text-to-image model on the recaptioned dataset, the model benefits
substantially across the board. First, in overall image quality: e.g. FID 14.84
vs. the baseline of 17.87, and 64.3% improvement in faithful image generation
according to human evaluation. Second, in semantic alignment, e.g. semantic
object accuracy 84.34 vs. 78.90, counting alignment errors 1.32 vs. 1.44 and
positional alignment 62.42 vs. 57.60. We analyze various ways to relabel the
corpus and provide evidence that this technique, which we call RECAP, both
reduces the train-inference discrepancy and provides the model with more
information per example, increasing sample efficiency and allowing the model to
better understand the relations between captions and images.