ChatPaper.aiChatPaper

D2D: テキストから画像生成における数値処理能力の向上のための検出器から微分可能批評家へ

D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

October 22, 2025
著者: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI

要旨

テキストから画像への変換(T2I)拡散モデルは意味的整合性において高い性能を達成しているが、プロンプトで指定された正しい数のオブジェクトを生成する点では依然として課題を抱えている。既存のアプローチでは、通常、外部批評器として補助的な計数ネットワークを組み込み、数値処理能力を強化している。しかし、これらの批評器は生成過程において勾配ガイダンスを提供する必要があるため、本質的に微分可能な回帰ベースのモデルに限定されてしまう。これにより、列挙による計数という微分不可能な性質を持つ、優れた計数能力を有する検出器ベースのモデルが排除されている。この制限を克服するため、我々はDetector-to-Differentiable(D2D)を提案する。これは、微分不可能な検出モデルを微分可能な批評器に変換する新規フレームワークであり、その優れた計数能力を活用して数値処理生成を導くものである。具体的には、検出器のロジットをソフトな二値指標に変換するカスタム活性化関数を設計し、これを推論時に事前学習済みT2Iモデルのノイズ事前分布を最適化するために用いる。SDXL-Turbo、SD-Turbo、Pixart-DMDを用い、複雑さの異なる4つのベンチマーク(低密度、高密度、多オブジェクトシナリオ)で実施した広範な実験により、オブジェクト計数精度において一貫した大幅な改善(例えば、400プロンプトの低密度ベンチマークであるD2D-Smallで最大13.7%向上)が示され、全体的な画像品質と計算オーバーヘッドの悪化は最小限に抑えられた。
English
Text-to-image (T2I) diffusion models have achieved strong performance in semantic alignment, yet they still struggle with generating the correct number of objects specified in prompts. Existing approaches typically incorporate auxiliary counting networks as external critics to enhance numeracy. However, since these critics must provide gradient guidance during generation, they are restricted to regression-based models that are inherently differentiable, thus excluding detector-based models with superior counting ability, whose count-via-enumeration nature is non-differentiable. To overcome this limitation, we propose Detector-to-Differentiable (D2D), a novel framework that transforms non-differentiable detection models into differentiable critics, thereby leveraging their superior counting ability to guide numeracy generation. Specifically, we design custom activation functions to convert detector logits into soft binary indicators, which are then used to optimize the noise prior at inference time with pre-trained T2I models. Our extensive experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of varying complexity (low-density, high-density, and multi-object scenarios) demonstrate consistent and substantial improvements in object counting accuracy (e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark), with minimal degradation in overall image quality and computational overhead.
PDF22December 2, 2025