Optimización Iterativa del Conteo de Objetos para Modelos de Difusión de Texto a Imagen.
Iterative Object Count Optimization for Text-to-image Diffusion Models
August 21, 2024
Autores: Oz Zafar, Lior Wolf, Idan Schwartz
cs.AI
Resumen
Abordamos un desafío persistente en los modelos de texto a imagen: generar con precisión un número especificado de objetos. Los modelos actuales, que aprenden a partir de pares imagen-texto, tienen dificultades inherentes con el conteo, ya que los datos de entrenamiento no pueden representar todos los posibles números de objetos para cualquier objeto dado. Para resolver esto, proponemos optimizar la imagen generada en función de una pérdida de conteo derivada de un modelo de conteo que agrega el potencial de un objeto. Utilizar un modelo de conteo listo para usar es desafiante por dos razones: primero, el modelo requiere un hiperparámetro de escala para la agregación de potencial que varía según el punto de vista de los objetos, y segundo, las técnicas de guía de clasificación requieren modelos modificados que operen en pasos de difusión intermedia ruidosos. Para abordar estos desafíos, proponemos un modo de entrenamiento en línea iterativo que mejora la precisión de las imágenes inferidas al alterar el embedding de condicionamiento de texto y ajustar dinámicamente los hiperparámetros. Nuestro método ofrece tres ventajas clave: (i) puede considerar técnicas de conteo no derivables basadas en modelos de detección, (ii) es una solución plug-and-play de cero disparos que facilita cambios rápidos en las técnicas de conteo y los métodos de generación de imágenes, y (iii) el token de conteo optimizado puede reutilizarse para generar imágenes precisas sin optimización adicional. Evaluamos la generación de varios objetos y mostramos mejoras significativas en precisión. La página del proyecto está disponible en https://ozzafar.github.io/count_token.
English
We address a persistent challenge in text-to-image models: accurately
generating a specified number of objects. Current models, which learn from
image-text pairs, inherently struggle with counting, as training data cannot
depict every possible number of objects for any given object. To solve this, we
propose optimizing the generated image based on a counting loss derived from a
counting model that aggregates an object\'s potential. Employing an
out-of-the-box counting model is challenging for two reasons: first, the model
requires a scaling hyperparameter for the potential aggregation that varies
depending on the viewpoint of the objects, and second, classifier guidance
techniques require modified models that operate on noisy intermediate diffusion
steps. To address these challenges, we propose an iterated online training mode
that improves the accuracy of inferred images while altering the text
conditioning embedding and dynamically adjusting hyperparameters. Our method
offers three key advantages: (i) it can consider non-derivable counting
techniques based on detection models, (ii) it is a zero-shot plug-and-play
solution facilitating rapid changes to the counting techniques and image
generation methods, and (iii) the optimized counting token can be reused to
generate accurate images without additional optimization. We evaluate the
generation of various objects and show significant improvements in accuracy.
The project page is available at https://ozzafar.github.io/count_token.Summary
AI-Generated Summary