Optimización Iterativa del Conteo de Objetos para Modelos de Difusión de Texto a Imagen.

Resumen

Abordamos un desafío persistente en los modelos de texto a imagen: generar con precisión un número especificado de objetos. Los modelos actuales, que aprenden a partir de pares imagen-texto, tienen dificultades inherentes con el conteo, ya que los datos de entrenamiento no pueden representar todos los posibles números de objetos para cualquier objeto dado. Para resolver esto, proponemos optimizar la imagen generada en función de una pérdida de conteo derivada de un modelo de conteo que agrega el potencial de un objeto. Utilizar un modelo de conteo listo para usar es desafiante por dos razones: primero, el modelo requiere un hiperparámetro de escala para la agregación de potencial que varía según el punto de vista de los objetos, y segundo, las técnicas de guía de clasificación requieren modelos modificados que operen en pasos de difusión intermedia ruidosos. Para abordar estos desafíos, proponemos un modo de entrenamiento en línea iterativo que mejora la precisión de las imágenes inferidas al alterar el embedding de condicionamiento de texto y ajustar dinámicamente los hiperparámetros. Nuestro método ofrece tres ventajas clave: (i) puede considerar técnicas de conteo no derivables basadas en modelos de detección, (ii) es una solución plug-and-play de cero disparos que facilita cambios rápidos en las técnicas de conteo y los métodos de generación de imágenes, y (iii) el token de conteo optimizado puede reutilizarse para generar imágenes precisas sin optimización adicional. Evaluamos la generación de varios objetos y mostramos mejoras significativas en precisión. La página del proyecto está disponible en https://ozzafar.github.io/count_token.

English

We address a persistent challenge in text-to-image models: accurately generating a specified number of objects. Current models, which learn from image-text pairs, inherently struggle with counting, as training data cannot depict every possible number of objects for any given object. To solve this, we propose optimizing the generated image based on a counting loss derived from a counting model that aggregates an object\'s potential. Employing an out-of-the-box counting model is challenging for two reasons: first, the model requires a scaling hyperparameter for the potential aggregation that varies depending on the viewpoint of the objects, and second, classifier guidance techniques require modified models that operate on noisy intermediate diffusion steps. To address these challenges, we propose an iterated online training mode that improves the accuracy of inferred images while altering the text conditioning embedding and dynamically adjusting hyperparameters. Our method offers three key advantages: (i) it can consider non-derivable counting techniques based on detection models, (ii) it is a zero-shot plug-and-play solution facilitating rapid changes to the counting techniques and image generation methods, and (iii) the optimized counting token can be reused to generate accurate images without additional optimization. We evaluate the generation of various objects and show significant improvements in accuracy. The project page is available at https://ozzafar.github.io/count_token.

Optimización Iterativa del Conteo de Objetos para Modelos de Difusión de Texto a Imagen.

Iterative Object Count Optimization for Text-to-image Diffusion Models

Resumen

Support