D2D: Detektor-zu-differenzierbarer Kritiker für verbesserte Numerik in der Text-zu-Bild-Generierung
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
October 22, 2025
papers.authors: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI
papers.abstract
Text-to-Image (T2I) Diffusionsmodelle haben eine hohe Leistungsfähigkeit bei der semantischen Ausrichtung erreicht, kämpfen jedoch nach wie vor damit, die in den Eingabeaufforderungen angegebene korrekte Anzahl von Objekten zu generieren. Bestehende Ansätze integrierieren typischerweise zusätzliche Zähl-Netzwerke als externe Kritiker, um die Zählfähigkeit zu verbessern. Da diese Kritiker jedoch während der Generierung Gradientenführung bereitstellen müssen, sind sie auf regressionsbasierte Modelle beschränkt, die von Haus aus differenzierbar sind. Dadurch werden detektorbasierte Modelle mit überlegener Zählfähigkeit ausgeschlossen, deren zähl-durch-Aufzählung-Charakter nicht differenzierbar ist. Um diese Einschränkung zu überwinden, schlagen wir Detector-to-Differentiable (D2D) vor, einen neuartigen Rahmen, der nicht-differenzierbare Detektionsmodelle in differenzierbare Kritiker umwandelt und so ihre überlegene Zählfähigkeit zur Steuerung der Zahlen-generierung nutzbar macht. Konkret entwerfen wir maßgeschneiderte Aktivierungsfunktionen, um Detektor-Logits in weiche binäre Indikatoren umzuwandeln, die dann verwendet werden, um die Rausch-A-priori zur Inferenzzeit mit vortrainierten T2I-Modellen zu optimieren. Unsere umfangreichen Experimente mit SDXL-Turbo, SD-Turbo und Pixart-DMD über vier Benchmarks unterschiedlicher Komplexität (Niedrigdichte-, Hochdichte- und Multi-Objekt-Szenarien) zeigen konsistente und erhebliche Verbesserungen der Objektzählgenauigkeit (z.B. ein Anstieg von bis zu 13,7 % auf D2D-Small, einem Niedrigdichte-Benchmark mit 400 Prompts), bei minimaler Verschlechterung der Gesamtbildqualität und geringem Rechenmehraufwand.
English
Text-to-image (T2I) diffusion models have achieved strong performance in
semantic alignment, yet they still struggle with generating the correct number
of objects specified in prompts. Existing approaches typically incorporate
auxiliary counting networks as external critics to enhance numeracy. However,
since these critics must provide gradient guidance during generation, they are
restricted to regression-based models that are inherently differentiable, thus
excluding detector-based models with superior counting ability, whose
count-via-enumeration nature is non-differentiable. To overcome this
limitation, we propose Detector-to-Differentiable (D2D), a novel framework that
transforms non-differentiable detection models into differentiable critics,
thereby leveraging their superior counting ability to guide numeracy
generation. Specifically, we design custom activation functions to convert
detector logits into soft binary indicators, which are then used to optimize
the noise prior at inference time with pre-trained T2I models. Our extensive
experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of
varying complexity (low-density, high-density, and multi-object scenarios)
demonstrate consistent and substantial improvements in object counting accuracy
(e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark),
with minimal degradation in overall image quality and computational overhead.