D2D: Детектор-дифференцируемый критик для улучшения работы с числами в генерации изображений по тексту
D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
October 22, 2025
Авторы: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI
Аннотация
Модели диффузии для генерации изображений по тексту (T2I) демонстрируют высокую производительность в области семантического согласования, однако по-прежнему испытывают трудности с генерацией правильного количества объектов, указанных в промптах. Существующие подходы обычно включают вспомогательные счетные сети в качестве внешних критиков для улучшения способности к счету. Однако, поскольку эти критики должны обеспечивать градиентное руководство в процессе генерации, они ограничены регрессионными моделями, которые по своей природе дифференцируемы, что исключает детекторные модели с превосходными счетными способностями, чья природа подсчета-через-перечисление не является дифференцируемой.
Чтобы преодолеть это ограничение, мы предлагаем Detector-to-Differentiable (D2D) — новую архитектуру, которая преобразует недифференцируемые модели детекции в дифференцируемых критиков, тем самым используя их превосходные счетные способности для руководства генерацией количества объектов. В частности, мы разрабатываем специальные функции активации для преобразования логитов детектора в мягкие бинарные индикаторы, которые затем используются для оптимизации априорного распределения шума во время вывода с помощью предварительно обученных T2I-моделей.
Наши обширные эксперименты на моделях SDXL-Turbo, SD-Turbo и Pixart-DMD в рамках четырех тестовых наборов различной сложности (сценарии с низкой плотностью, высокой плотностью и множественными объектами) демонстрируют последовательное и существенное улучшение точности подсчета объектов (например, увеличение до 13.7% на D2D-Small, наборе из 400 промптов с низкой плотностью объектов) при минимальной деградации общего качества изображений и вычислительных затратах.
English
Text-to-image (T2I) diffusion models have achieved strong performance in
semantic alignment, yet they still struggle with generating the correct number
of objects specified in prompts. Existing approaches typically incorporate
auxiliary counting networks as external critics to enhance numeracy. However,
since these critics must provide gradient guidance during generation, they are
restricted to regression-based models that are inherently differentiable, thus
excluding detector-based models with superior counting ability, whose
count-via-enumeration nature is non-differentiable. To overcome this
limitation, we propose Detector-to-Differentiable (D2D), a novel framework that
transforms non-differentiable detection models into differentiable critics,
thereby leveraging their superior counting ability to guide numeracy
generation. Specifically, we design custom activation functions to convert
detector logits into soft binary indicators, which are then used to optimize
the noise prior at inference time with pre-trained T2I models. Our extensive
experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of
varying complexity (low-density, high-density, and multi-object scenarios)
demonstrate consistent and substantial improvements in object counting accuracy
(e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark),
with minimal degradation in overall image quality and computational overhead.