ChatPaper.aiChatPaper

Iteratieve Optimalisatie van Objecttelling voor Tekst-naar-beeld Diffusiemodellen

Iterative Object Count Optimization for Text-to-image Diffusion Models

August 21, 2024
Auteurs: Oz Zafar, Lior Wolf, Idan Schwartz
cs.AI

Samenvatting

We pakken een hardnekkige uitdaging aan in tekst-naar-beeldmodellen: het nauwkeurig genereren van een gespecificeerd aantal objecten. Huidige modellen, die leren van beeld-tekstparen, hebben inherent moeite met tellen, omdat trainingsdata niet elk mogelijk aantal objecten voor een bepaald object kan weergeven. Om dit op te lossen, stellen we voor om het gegenereerde beeld te optimaliseren op basis van een telverlies afgeleid van een telmodel dat het potentieel van een object aggregeert. Het gebruik van een standaard telmodel is uitdagend om twee redenen: ten eerste vereist het model een schaalhyperparameter voor de potentieelaggregatie die varieert afhankelijk van het gezichtspunt van de objecten, en ten tweede vereisen technieken voor classificatorbegeleiding aangepaste modellen die werken op ruisvolle tussenstappen van diffusie. Om deze uitdagingen aan te pakken, stellen we een iteratieve online trainingsmodus voor die de nauwkeurigheid van afgeleide beelden verbetert terwijl de tekstconditioneringsembedding wordt aangepast en hyperparameters dynamisch worden bijgesteld. Onze methode biedt drie belangrijke voordelen: (i) het kan niet-afleidbare teltechnieken op basis van detectiemodellen overwegen, (ii) het is een zero-shot plug-and-play oplossing die snelle wijzigingen aan de teltechnieken en beeldgeneratiemethoden mogelijk maakt, en (iii) het geoptimaliseerde tel-token kan worden hergebruikt om nauwkeurige beelden te genereren zonder aanvullende optimalisatie. We evalueren de generatie van verschillende objecten en tonen significante verbeteringen in nauwkeurigheid. De projectpagina is beschikbaar op https://ozzafar.github.io/count_token.
English
We address a persistent challenge in text-to-image models: accurately generating a specified number of objects. Current models, which learn from image-text pairs, inherently struggle with counting, as training data cannot depict every possible number of objects for any given object. To solve this, we propose optimizing the generated image based on a counting loss derived from a counting model that aggregates an object\'s potential. Employing an out-of-the-box counting model is challenging for two reasons: first, the model requires a scaling hyperparameter for the potential aggregation that varies depending on the viewpoint of the objects, and second, classifier guidance techniques require modified models that operate on noisy intermediate diffusion steps. To address these challenges, we propose an iterated online training mode that improves the accuracy of inferred images while altering the text conditioning embedding and dynamically adjusting hyperparameters. Our method offers three key advantages: (i) it can consider non-derivable counting techniques based on detection models, (ii) it is a zero-shot plug-and-play solution facilitating rapid changes to the counting techniques and image generation methods, and (iii) the optimized counting token can be reused to generate accurate images without additional optimization. We evaluate the generation of various objects and show significant improvements in accuracy. The project page is available at https://ozzafar.github.io/count_token.

Summary

AI-Generated Summary

PDF62November 16, 2024