ChatPaper.aiChatPaper

D2D: Da Rilevatore a Critico Differenziabile per un Miglioramento della Numericità nella Generazione di Immagini da Testo

D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

October 22, 2025
Autori: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI

Abstract

I modelli di diffusione text-to-image (T2I) hanno ottenuto prestazioni eccellenti nell'allineamento semantico, ma continuano a incontrare difficoltà nel generare il numero corretto di oggetti specificato nei prompt. Gli approcci esistenti incorporano tipicamente reti di conteggio ausiliarie come critici esterni per potenziare la capacità numerica. Tuttavia, poiché questi critici devono fornire una guida gradiente durante la generazione, sono limitati a modelli basati su regressione che sono intrinsecamente differenziabili, escludendo così i modelli basati su detector con capacità di conteggio superiore, la cui natura di conteggio-per-enumerazione è non differenziabile. Per superare questa limitazione, proponiamo Detector-to-Differentiable (D2D), un framework innovativo che trasforma modelli di detection non differenziabili in critici differenziabili, sfruttando così la loro superiore capacità di conteggio per guidare la generazione numerica. Nello specifico, progettiamo funzioni di attivazione personalizzate per convertire i logit del detector in indicatori binari soft, che vengono poi utilizzati per ottimizzare il prior di rumore al momento dell'inferenza con modelli T2I pre-addestrati. I nostri esperimenti approfonditi su SDXL-Turbo, SD-Turbo e Pixart-DMD, condotti su quattro benchmark di complessità variabile (scenari a bassa densità, alta densità e multi-oggetto), dimostrano miglioramenti consistenti e sostanziali nell'accuratezza del conteggio degli oggetti (ad esempio, un incremento fino al 13.7% su D2D-Small, un benchmark a bassa densità con 400 prompt), con un degrado minimo della qualità complessiva dell'immagine e del sovraccarico computazionale.
English
Text-to-image (T2I) diffusion models have achieved strong performance in semantic alignment, yet they still struggle with generating the correct number of objects specified in prompts. Existing approaches typically incorporate auxiliary counting networks as external critics to enhance numeracy. However, since these critics must provide gradient guidance during generation, they are restricted to regression-based models that are inherently differentiable, thus excluding detector-based models with superior counting ability, whose count-via-enumeration nature is non-differentiable. To overcome this limitation, we propose Detector-to-Differentiable (D2D), a novel framework that transforms non-differentiable detection models into differentiable critics, thereby leveraging their superior counting ability to guide numeracy generation. Specifically, we design custom activation functions to convert detector logits into soft binary indicators, which are then used to optimize the noise prior at inference time with pre-trained T2I models. Our extensive experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of varying complexity (low-density, high-density, and multi-object scenarios) demonstrate consistent and substantial improvements in object counting accuracy (e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark), with minimal degradation in overall image quality and computational overhead.
PDF22December 2, 2025