Iterative Objektzähloptimierung für Text-zu-Bild-Diffusionsmodelle
Iterative Object Count Optimization for Text-to-image Diffusion Models
August 21, 2024
Autoren: Oz Zafar, Lior Wolf, Idan Schwartz
cs.AI
Zusammenfassung
Wir behandeln eine anhaltende Herausforderung in Text-zu-Bild-Modellen: die präzise Generierung einer spezifizierten Anzahl von Objekten. Aktuelle Modelle, die aus Bild-Text-Paaren lernen, haben inhärent Schwierigkeiten mit dem Zählen, da Trainingsdaten nicht jede mögliche Anzahl von Objekten für ein gegebenes Objekt darstellen können. Um dies zu lösen, schlagen wir vor, das generierte Bild anhand eines Zählverlusts zu optimieren, der von einem Zählmodell abgeleitet ist, das das Potenzial eines Objekts aggregiert. Die Verwendung eines sofort einsatzbereiten Zählmodells ist aus zwei Gründen herausfordernd: Erstens erfordert das Modell einen Skalierungshyperparameter für die Potenzialaggregation, der je nach Blickwinkel der Objekte variiert, und zweitens erfordern Klassifizierungsanleitungstechniken modifizierte Modelle, die auf rauschigen Zwischendiffusionsschritten arbeiten. Um diesen Herausforderungen zu begegnen, schlagen wir einen iterativen Online-Trainingsmodus vor, der die Genauigkeit der abgeleiteten Bilder verbessert, während die Textkonditionierungseinbettung geändert und die Hyperparameter dynamisch angepasst werden. Unsere Methode bietet drei Hauptvorteile: (i) sie kann nicht ableitbare Zähltechniken basierend auf Detektionsmodellen berücksichtigen, (ii) sie ist eine Plug-and-Play-Lösung, die schnelle Änderungen an den Zähltechniken und Bildgenerierungsmethoden ermöglicht, und (iii) das optimierte Zähl-Token kann wiederverwendet werden, um präzise Bilder ohne zusätzliche Optimierung zu generieren. Wir evaluieren die Generierung verschiedener Objekte und zeigen signifikante Verbesserungen in der Genauigkeit. Die Projektseite ist unter https://ozzafar.github.io/count_token verfügbar.
English
We address a persistent challenge in text-to-image models: accurately
generating a specified number of objects. Current models, which learn from
image-text pairs, inherently struggle with counting, as training data cannot
depict every possible number of objects for any given object. To solve this, we
propose optimizing the generated image based on a counting loss derived from a
counting model that aggregates an object\'s potential. Employing an
out-of-the-box counting model is challenging for two reasons: first, the model
requires a scaling hyperparameter for the potential aggregation that varies
depending on the viewpoint of the objects, and second, classifier guidance
techniques require modified models that operate on noisy intermediate diffusion
steps. To address these challenges, we propose an iterated online training mode
that improves the accuracy of inferred images while altering the text
conditioning embedding and dynamically adjusting hyperparameters. Our method
offers three key advantages: (i) it can consider non-derivable counting
techniques based on detection models, (ii) it is a zero-shot plug-and-play
solution facilitating rapid changes to the counting techniques and image
generation methods, and (iii) the optimized counting token can be reused to
generate accurate images without additional optimization. We evaluate the
generation of various objects and show significant improvements in accuracy.
The project page is available at https://ozzafar.github.io/count_token.Summary
AI-Generated Summary