ChatPaper.aiChatPaper

D2D: Crítico de Detector a Diferenciable para una Numeración Mejorada en la Generación de Texto a Imagen

D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

October 22, 2025
Autores: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI

Resumen

Los modelos de difusión de texto a imagen (T2I) han logrado un alto rendimiento en la alineación semántica, pero aún presentan dificultades para generar la cantidad correcta de objetos especificada en las instrucciones. Los enfoques existentes suelen incorporar redes de conteo auxiliares como críticos externos para mejorar la capacidad numérica. Sin embargo, dado que estos críticos deben proporcionar guía de gradiente durante la generación, están restringidos a modelos basados en regresión que son inherentemente diferenciables, excluyendo así a los modelos basados en detectores con capacidad de conteo superior, cuya naturaleza de "contar-mediante-enumeración" no es diferenciable. Para superar esta limitación, proponemos Detector-a-Diferenciable (D2D), un marco novedoso que transforma modelos de detección no diferenciables en críticos diferenciables, aprovechando así su capacidad de conteo superior para guiar la generación numérica. Específicamente, diseñamos funciones de activación personalizadas para convertir los logits del detector en indicadores binarios suaves, que luego se utilizan para optimizar el previo de ruido en el momento de la inferencia con modelos T2I preentrenados. Nuestros extensos experimentos en SDXL-Turbo, SD-Turbo y Pixart-DMD a través de cuatro puntos de referencia de complejidad variable (escenarios de baja densidad, alta densidad y múltiples objetos) demuestran mejoras consistentes y sustanciales en la precisión del conteo de objetos (por ejemplo, aumentando hasta un 13.7% en D2D-Small, un punto de referencia de baja densidad con 400 instrucciones), con una degradación mínima en la calidad general de la imagen y sobrecarga computacional.
English
Text-to-image (T2I) diffusion models have achieved strong performance in semantic alignment, yet they still struggle with generating the correct number of objects specified in prompts. Existing approaches typically incorporate auxiliary counting networks as external critics to enhance numeracy. However, since these critics must provide gradient guidance during generation, they are restricted to regression-based models that are inherently differentiable, thus excluding detector-based models with superior counting ability, whose count-via-enumeration nature is non-differentiable. To overcome this limitation, we propose Detector-to-Differentiable (D2D), a novel framework that transforms non-differentiable detection models into differentiable critics, thereby leveraging their superior counting ability to guide numeracy generation. Specifically, we design custom activation functions to convert detector logits into soft binary indicators, which are then used to optimize the noise prior at inference time with pre-trained T2I models. Our extensive experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of varying complexity (low-density, high-density, and multi-object scenarios) demonstrate consistent and substantial improvements in object counting accuracy (e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark), with minimal degradation in overall image quality and computational overhead.
PDF22December 2, 2025