Ottimizzazione Iterativa del Conteggio Oggetti per Modelli di Diffusione da Testo a Immagine
Iterative Object Count Optimization for Text-to-image Diffusion Models
August 21, 2024
Autori: Oz Zafar, Lior Wolf, Idan Schwartz
cs.AI
Abstract
Affrontiamo una sfida persistente nei modelli di testo-immagine: generare con precisione un numero specifico di oggetti. I modelli attuali, che apprendono da coppie immagine-testo, faticano intrinsecamente con il conteggio, poiché i dati di addestramento non possono rappresentare ogni possibile numero di oggetti per un dato oggetto. Per risolvere questo problema, proponiamo di ottimizzare l'immagine generata basandoci su una perdita di conteggio derivata da un modello di conteggio che aggrega il potenziale di un oggetto. Utilizzare un modello di conteggio predefinito è complesso per due motivi: primo, il modello richiede un iperparametro di scalatura per l'aggregazione del potenziale che varia in base alla prospettiva degli oggetti, e secondo, le tecniche di guida del classificatore richiedono modelli modificati che operano su passaggi intermedi rumorosi del processo di diffusione. Per affrontare queste sfide, proponiamo una modalità di addestramento online iterata che migliora l'accuratezza delle immagini inferite mentre modifica l'embedding di condizionamento del testo e regola dinamicamente gli iperparametri. Il nostro metodo offre tre vantaggi chiave: (i) può considerare tecniche di conteggio non derivabili basate su modelli di rilevamento, (ii) è una soluzione plug-and-play zero-shot che facilita rapidi cambiamenti nelle tecniche di conteggio e nei metodi di generazione delle immagini, e (iii) il token di conteggio ottimizzato può essere riutilizzato per generare immagini accurate senza ulteriori ottimizzazioni. Valutiamo la generazione di vari oggetti e mostriamo miglioramenti significativi in termini di accuratezza. La pagina del progetto è disponibile all'indirizzo https://ozzafar.github.io/count_token.
English
We address a persistent challenge in text-to-image models: accurately
generating a specified number of objects. Current models, which learn from
image-text pairs, inherently struggle with counting, as training data cannot
depict every possible number of objects for any given object. To solve this, we
propose optimizing the generated image based on a counting loss derived from a
counting model that aggregates an object\'s potential. Employing an
out-of-the-box counting model is challenging for two reasons: first, the model
requires a scaling hyperparameter for the potential aggregation that varies
depending on the viewpoint of the objects, and second, classifier guidance
techniques require modified models that operate on noisy intermediate diffusion
steps. To address these challenges, we propose an iterated online training mode
that improves the accuracy of inferred images while altering the text
conditioning embedding and dynamically adjusting hyperparameters. Our method
offers three key advantages: (i) it can consider non-derivable counting
techniques based on detection models, (ii) it is a zero-shot plug-and-play
solution facilitating rapid changes to the counting techniques and image
generation methods, and (iii) the optimized counting token can be reused to
generate accurate images without additional optimization. We evaluate the
generation of various objects and show significant improvements in accuracy.
The project page is available at https://ozzafar.github.io/count_token.