D2D: Detector para Crítico Diferenciável para Melhoria da Numeracia na Geração de Texto para Imagem
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
October 22, 2025
Autores: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI
Resumo
Os modelos de difusão texto-imagem (T2I) alcançaram um desempenho robusto no alinhamento semântico, mas ainda enfrentam dificuldades para gerar a quantidade correta de objetos especificada nas instruções. As abordagens existentes geralmente incorporam redes auxiliares de contagem como críticos externos para melhorar a numeracia. No entanto, como esses críticos devem fornecer orientação por gradiente durante a geração, ficam restritos a modelos baseados em regressão que são intrinsecamente diferenciáveis, excluindo assim modelos baseados em detectores – que possuem capacidade de contagem superior – cuja natureza de "contar via enumeração" é não diferenciável. Para superar essa limitação, propomos o Detector-to-Differentiable (D2D), uma estrutura inovadora que transforma modelos de detecção não diferenciáveis em críticos diferenciáveis, permitindo assim aproveitar sua capacidade superior de contagem para orientar a geração de numeracia. Especificamente, projetamos funções de ativação personalizadas para converter os *logits* do detector em indicadores binários suaves, que são então usados para otimizar o ruído prévio no momento da inferência com modelos T2I pré-treinados. Nossos experimentos abrangentes com SDXL-Turbo, SD-Turbo e Pixart-DMD em quatro *benchmarks* de complexidade variada (cenários de baixa densidade, alta densidade e múltiplos objetos) demonstram melhorias consistentes e substanciais na precisão da contagem de objetos (por exemplo, um aumento de até 13,7% no D2D-Small, um *benchmark* de baixa densidade com 400 instruções), com degradação mínima na qualidade geral da imagem e sobrecarga computacional.
English
Text-to-image (T2I) diffusion models have achieved strong performance in
semantic alignment, yet they still struggle with generating the correct number
of objects specified in prompts. Existing approaches typically incorporate
auxiliary counting networks as external critics to enhance numeracy. However,
since these critics must provide gradient guidance during generation, they are
restricted to regression-based models that are inherently differentiable, thus
excluding detector-based models with superior counting ability, whose
count-via-enumeration nature is non-differentiable. To overcome this
limitation, we propose Detector-to-Differentiable (D2D), a novel framework that
transforms non-differentiable detection models into differentiable critics,
thereby leveraging their superior counting ability to guide numeracy
generation. Specifically, we design custom activation functions to convert
detector logits into soft binary indicators, which are then used to optimize
the noise prior at inference time with pre-trained T2I models. Our extensive
experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of
varying complexity (low-density, high-density, and multi-object scenarios)
demonstrate consistent and substantial improvements in object counting accuracy
(e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark),
with minimal degradation in overall image quality and computational overhead.