D2D: Детектор-дифференцируемый критик для улучшения работы с числами в генерации изображений по тексту

Аннотация

Модели диффузии для генерации изображений по тексту (T2I) демонстрируют высокую производительность в области семантического согласования, однако по-прежнему испытывают трудности с генерацией правильного количества объектов, указанных в промптах. Существующие подходы обычно включают вспомогательные счетные сети в качестве внешних критиков для улучшения способности к счету. Однако, поскольку эти критики должны обеспечивать градиентное руководство в процессе генерации, они ограничены регрессионными моделями, которые по своей природе дифференцируемы, что исключает детекторные модели с превосходными счетными способностями, чья природа подсчета-через-перечисление не является дифференцируемой. Чтобы преодолеть это ограничение, мы предлагаем Detector-to-Differentiable (D2D) — новую архитектуру, которая преобразует недифференцируемые модели детекции в дифференцируемых критиков, тем самым используя их превосходные счетные способности для руководства генерацией количества объектов. В частности, мы разрабатываем специальные функции активации для преобразования логитов детектора в мягкие бинарные индикаторы, которые затем используются для оптимизации априорного распределения шума во время вывода с помощью предварительно обученных T2I-моделей. Наши обширные эксперименты на моделях SDXL-Turbo, SD-Turbo и Pixart-DMD в рамках четырех тестовых наборов различной сложности (сценарии с низкой плотностью, высокой плотностью и множественными объектами) демонстрируют последовательное и существенное улучшение точности подсчета объектов (например, увеличение до 13.7% на D2D-Small, наборе из 400 промптов с низкой плотностью объектов) при минимальной деградации общего качества изображений и вычислительных затратах.

English

Text-to-image (T2I) diffusion models have achieved strong performance in semantic alignment, yet they still struggle with generating the correct number of objects specified in prompts. Existing approaches typically incorporate auxiliary counting networks as external critics to enhance numeracy. However, since these critics must provide gradient guidance during generation, they are restricted to regression-based models that are inherently differentiable, thus excluding detector-based models with superior counting ability, whose count-via-enumeration nature is non-differentiable. To overcome this limitation, we propose Detector-to-Differentiable (D2D), a novel framework that transforms non-differentiable detection models into differentiable critics, thereby leveraging their superior counting ability to guide numeracy generation. Specifically, we design custom activation functions to convert detector logits into soft binary indicators, which are then used to optimize the noise prior at inference time with pre-trained T2I models. Our extensive experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of varying complexity (low-density, high-density, and multi-object scenarios) demonstrate consistent and substantial improvements in object counting accuracy (e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark), with minimal degradation in overall image quality and computational overhead.