D2D : Détecteur vers critique différentiable pour une numératie améliorée dans la génération texte-image

papers.abstract

Les modèles de diffusion texte-image (T2I) ont atteint des performances remarquables en matière d'alignement sémantique, mais ils peinent encore à générer le nombre correct d'objets spécifiés dans les prompts. Les approches existantes intègrent généralement des réseaux de comptage auxiliaires comme critiques externes pour améliorer la numératie. Cependant, ces critiques devant fournir un guidage par gradient durant la génération, elles se limitent à des modèles de régression intrinsèquement différentiables, excluant ainsi les modèles à base de détecteurs – pourtant supérieurs en capacité de comptage – dont la nature à compter par énumération est non différentiable. Pour surmonter cette limitation, nous proposons D2D (Detector-to-Differentiable), un cadre novateur qui transforme les modèles de détection non différentiables en critiques différentiables, exploitant ainsi leur capacité de comptage supérieure pour guider la génération numérique. Plus précisément, nous concevons des fonctions d'activation personnalisées pour convertir les logits du détecteur en indicateurs binaires continus, qui sont ensuite utilisés pour optimiser l'a priori de bruit lors de l'inférence avec des modèles T2I pré-entraînés. Nos expériences approfondies sur SDXL-Turbo, SD-Turbo et Pixart-DMD, à travers quatre benchmarks de complexité variable (scénarios à faible densité, haute densité et multi-objets), démontrent des améliorations constantes et substantielles de la précision du comptage d'objets (par exemple, un gain allant jusqu'à 13,7 % sur D2D-Small, un benchmark à faible densité de 400 prompts), avec une dégradation minime de la qualité globale de l'image et une surcharge computationnelle réduite.

English

Text-to-image (T2I) diffusion models have achieved strong performance in semantic alignment, yet they still struggle with generating the correct number of objects specified in prompts. Existing approaches typically incorporate auxiliary counting networks as external critics to enhance numeracy. However, since these critics must provide gradient guidance during generation, they are restricted to regression-based models that are inherently differentiable, thus excluding detector-based models with superior counting ability, whose count-via-enumeration nature is non-differentiable. To overcome this limitation, we propose Detector-to-Differentiable (D2D), a novel framework that transforms non-differentiable detection models into differentiable critics, thereby leveraging their superior counting ability to guide numeracy generation. Specifically, we design custom activation functions to convert detector logits into soft binary indicators, which are then used to optimize the noise prior at inference time with pre-trained T2I models. Our extensive experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of varying complexity (low-density, high-density, and multi-object scenarios) demonstrate consistent and substantial improvements in object counting accuracy (e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark), with minimal degradation in overall image quality and computational overhead.

D2D : Détecteur vers critique différentiable pour une numératie améliorée dans la génération texte-image

D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

papers.abstract

Support