Iterative Objektzähloptimierung für Text-zu-Bild-Diffusionsmodelle

papers.abstract

Wir behandeln eine anhaltende Herausforderung in Text-zu-Bild-Modellen: die präzise Generierung einer spezifizierten Anzahl von Objekten. Aktuelle Modelle, die aus Bild-Text-Paaren lernen, haben inhärent Schwierigkeiten mit dem Zählen, da Trainingsdaten nicht jede mögliche Anzahl von Objekten für ein gegebenes Objekt darstellen können. Um dies zu lösen, schlagen wir vor, das generierte Bild anhand eines Zählverlusts zu optimieren, der von einem Zählmodell abgeleitet ist, das das Potenzial eines Objekts aggregiert. Die Verwendung eines sofort einsatzbereiten Zählmodells ist aus zwei Gründen herausfordernd: Erstens erfordert das Modell einen Skalierungshyperparameter für die Potenzialaggregation, der je nach Blickwinkel der Objekte variiert, und zweitens erfordern Klassifizierungsanleitungstechniken modifizierte Modelle, die auf rauschigen Zwischendiffusionsschritten arbeiten. Um diesen Herausforderungen zu begegnen, schlagen wir einen iterativen Online-Trainingsmodus vor, der die Genauigkeit der abgeleiteten Bilder verbessert, während die Textkonditionierungseinbettung geändert und die Hyperparameter dynamisch angepasst werden. Unsere Methode bietet drei Hauptvorteile: (i) sie kann nicht ableitbare Zähltechniken basierend auf Detektionsmodellen berücksichtigen, (ii) sie ist eine Plug-and-Play-Lösung, die schnelle Änderungen an den Zähltechniken und Bildgenerierungsmethoden ermöglicht, und (iii) das optimierte Zähl-Token kann wiederverwendet werden, um präzise Bilder ohne zusätzliche Optimierung zu generieren. Wir evaluieren die Generierung verschiedener Objekte und zeigen signifikante Verbesserungen in der Genauigkeit. Die Projektseite ist unter https://ozzafar.github.io/count_token verfügbar.

English

We address a persistent challenge in text-to-image models: accurately generating a specified number of objects. Current models, which learn from image-text pairs, inherently struggle with counting, as training data cannot depict every possible number of objects for any given object. To solve this, we propose optimizing the generated image based on a counting loss derived from a counting model that aggregates an object\'s potential. Employing an out-of-the-box counting model is challenging for two reasons: first, the model requires a scaling hyperparameter for the potential aggregation that varies depending on the viewpoint of the objects, and second, classifier guidance techniques require modified models that operate on noisy intermediate diffusion steps. To address these challenges, we propose an iterated online training mode that improves the accuracy of inferred images while altering the text conditioning embedding and dynamically adjusting hyperparameters. Our method offers three key advantages: (i) it can consider non-derivable counting techniques based on detection models, (ii) it is a zero-shot plug-and-play solution facilitating rapid changes to the counting techniques and image generation methods, and (iii) the optimized counting token can be reused to generate accurate images without additional optimization. We evaluate the generation of various objects and show significant improvements in accuracy. The project page is available at https://ozzafar.github.io/count_token.

Iterative Objektzähloptimierung für Text-zu-Bild-Diffusionsmodelle

Iterative Object Count Optimization for Text-to-image Diffusion Models

papers.abstract

Support