D2D : Détecteur vers critique différentiable pour une numératie améliorée dans la génération texte-image
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
October 22, 2025
papers.authors: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI
papers.abstract
Les modèles de diffusion texte-image (T2I) ont atteint des performances remarquables en matière d'alignement sémantique, mais ils peinent encore à générer le nombre correct d'objets spécifiés dans les prompts. Les approches existantes intègrent généralement des réseaux de comptage auxiliaires comme critiques externes pour améliorer la numératie. Cependant, ces critiques devant fournir un guidage par gradient durant la génération, elles se limitent à des modèles de régression intrinsèquement différentiables, excluant ainsi les modèles à base de détecteurs – pourtant supérieurs en capacité de comptage – dont la nature à compter par énumération est non différentiable. Pour surmonter cette limitation, nous proposons D2D (Detector-to-Differentiable), un cadre novateur qui transforme les modèles de détection non différentiables en critiques différentiables, exploitant ainsi leur capacité de comptage supérieure pour guider la génération numérique. Plus précisément, nous concevons des fonctions d'activation personnalisées pour convertir les logits du détecteur en indicateurs binaires continus, qui sont ensuite utilisés pour optimiser l'a priori de bruit lors de l'inférence avec des modèles T2I pré-entraînés. Nos expériences approfondies sur SDXL-Turbo, SD-Turbo et Pixart-DMD, à travers quatre benchmarks de complexité variable (scénarios à faible densité, haute densité et multi-objets), démontrent des améliorations constantes et substantielles de la précision du comptage d'objets (par exemple, un gain allant jusqu'à 13,7 % sur D2D-Small, un benchmark à faible densité de 400 prompts), avec une dégradation minime de la qualité globale de l'image et une surcharge computationnelle réduite.
English
Text-to-image (T2I) diffusion models have achieved strong performance in
semantic alignment, yet they still struggle with generating the correct number
of objects specified in prompts. Existing approaches typically incorporate
auxiliary counting networks as external critics to enhance numeracy. However,
since these critics must provide gradient guidance during generation, they are
restricted to regression-based models that are inherently differentiable, thus
excluding detector-based models with superior counting ability, whose
count-via-enumeration nature is non-differentiable. To overcome this
limitation, we propose Detector-to-Differentiable (D2D), a novel framework that
transforms non-differentiable detection models into differentiable critics,
thereby leveraging their superior counting ability to guide numeracy
generation. Specifically, we design custom activation functions to convert
detector logits into soft binary indicators, which are then used to optimize
the noise prior at inference time with pre-trained T2I models. Our extensive
experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of
varying complexity (low-density, high-density, and multi-object scenarios)
demonstrate consistent and substantial improvements in object counting accuracy
(e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark),
with minimal degradation in overall image quality and computational overhead.