D2D: Detector-naar-Differentieerbare Criticus voor Verbeterde Numerieke Vaardigheid in Tekst-naar-Beeld Generatie
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
October 22, 2025
Auteurs: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI
Samenvatting
Text-to-image (T2I) diffusiemodellen hebben een sterke prestatie geleverd in semantische uitlijning, maar ze worstelen nog steeds met het genereren van het juiste aantal objecten dat in prompts wordt gespecificeerd. Bestaande benaderingen incorporeren typisch auxiliary counting-netwerken als externe critici om numeriek vermogen te verbeteren. Omdat deze critici echter gradientbegeleiding moeten bieden tijdens de generatie, zijn ze beperkt tot op regressie gebaseerde modellen die inherent differentieerbaar zijn, waardoor detector-gebaseerde modellen met superieur telvermogen worden uitgesloten, waarvan het tel-via-enumeratie-karakter niet-differentieerbaar is. Om deze beperking te overwinnen, stellen we Detector-to-Differentiable (D2D) voor, een nieuw raamwerk dat niet-differentieerbare detectiemodellen omvormt tot differentieerbare critici, waardoor hun superieure telvermogen wordt benut om numerieke generatie te begeleiden. Specifiek ontwerpen we aangepaste activatiefuncties om detector-logits om te zetten in zachte binaire indicatoren, die vervolgens worden gebruikt om de ruisprior tijdens inferentie te optimaliseren met vooraf getrainde T2I-modellen. Onze uitgebreide experimenten op SDXL-Turbo, SD-Turbo en Pixart-DMD over vier benchmarks van uiteenlopende complexiteit (low-density, high-density en multi-object scenario's) demonstreren consistente en substantiële verbeteringen in objecttel nauwkeurigheid (bijvoorbeeld een stijging tot 13,7% op D2D-Small, een low-density benchmark met 400 prompts), met minimale degradatie in algemene beeldkwaliteit en computationele overhead.
English
Text-to-image (T2I) diffusion models have achieved strong performance in
semantic alignment, yet they still struggle with generating the correct number
of objects specified in prompts. Existing approaches typically incorporate
auxiliary counting networks as external critics to enhance numeracy. However,
since these critics must provide gradient guidance during generation, they are
restricted to regression-based models that are inherently differentiable, thus
excluding detector-based models with superior counting ability, whose
count-via-enumeration nature is non-differentiable. To overcome this
limitation, we propose Detector-to-Differentiable (D2D), a novel framework that
transforms non-differentiable detection models into differentiable critics,
thereby leveraging their superior counting ability to guide numeracy
generation. Specifically, we design custom activation functions to convert
detector logits into soft binary indicators, which are then used to optimize
the noise prior at inference time with pre-trained T2I models. Our extensive
experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of
varying complexity (low-density, high-density, and multi-object scenarios)
demonstrate consistent and substantial improvements in object counting accuracy
(e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark),
with minimal degradation in overall image quality and computational overhead.