Optimisation itérative du décompte d'objets pour les modèles de diffusion texte-image
Iterative Object Count Optimization for Text-to-image Diffusion Models
August 21, 2024
Auteurs: Oz Zafar, Lior Wolf, Idan Schwartz
cs.AI
Résumé
Nous abordons un défi persistant dans les modèles texte-image : générer avec précision un nombre spécifié d'objets. Les modèles actuels, qui apprennent à partir de paires image-texte, ont intrinsèquement des difficultés avec le décompte, car les données d'entraînement ne peuvent pas représenter tous les nombres possibles d'objets pour un objet donné. Pour résoudre cela, nous proposons d'optimiser l'image générée en fonction d'une perte de décompte dérivée d'un modèle de décompte qui agrège le potentiel d'un objet. Utiliser un modèle de décompte prêt à l'emploi est difficile pour deux raisons : premièrement, le modèle nécessite un hyperparamètre d'échelle pour l'agrégation du potentiel qui varie en fonction du point de vue des objets, et deuxièmement, les techniques de guidage des classificateurs nécessitent des modèles modifiés qui fonctionnent sur des étapes de diffusion intermédiaires bruyantes. Pour relever ces défis, nous proposons un mode d'entraînement en ligne itéré qui améliore la précision des images inférées tout en modifiant l'incorporation de conditionnement du texte et en ajustant dynamiquement les hyperparamètres. Notre méthode offre trois avantages clés : (i) elle peut prendre en compte des techniques de décompte non dérivables basées sur des modèles de détection, (ii) c'est une solution plug-and-play zéro-shot facilitant des changements rapides aux techniques de décompte et aux méthodes de génération d'images, et (iii) le jeton de décompte optimisé peut être réutilisé pour générer des images précises sans optimisation supplémentaire. Nous évaluons la génération de divers objets et montrons des améliorations significatives en termes de précision. La page du projet est disponible sur https://ozzafar.github.io/count_token.
English
We address a persistent challenge in text-to-image models: accurately
generating a specified number of objects. Current models, which learn from
image-text pairs, inherently struggle with counting, as training data cannot
depict every possible number of objects for any given object. To solve this, we
propose optimizing the generated image based on a counting loss derived from a
counting model that aggregates an object\'s potential. Employing an
out-of-the-box counting model is challenging for two reasons: first, the model
requires a scaling hyperparameter for the potential aggregation that varies
depending on the viewpoint of the objects, and second, classifier guidance
techniques require modified models that operate on noisy intermediate diffusion
steps. To address these challenges, we propose an iterated online training mode
that improves the accuracy of inferred images while altering the text
conditioning embedding and dynamically adjusting hyperparameters. Our method
offers three key advantages: (i) it can consider non-derivable counting
techniques based on detection models, (ii) it is a zero-shot plug-and-play
solution facilitating rapid changes to the counting techniques and image
generation methods, and (iii) the optimized counting token can be reused to
generate accurate images without additional optimization. We evaluate the
generation of various objects and show significant improvements in accuracy.
The project page is available at https://ozzafar.github.io/count_token.Summary
AI-Generated Summary