ChatPaper.aiChatPaper

D2D: 텍스트-이미지 생성의 수치 정보 처리 능력 향상을 위한 감별기-미분 가능 비평가

D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation

October 22, 2025
저자: Nobline Yoo, Olga Russakovsky, Ye Zhu
cs.AI

초록

텍스트-이미지(T2I) 확산 모델은 의미론적 정렬에서 강력한 성능을 달성했으나, 여전히 프롬프트에 지정된 객체 수를 정확히 생성하는 데 어려움을 겪고 있습니다. 기존 접근법은 일반적으로 보조 계수 네트워크를 외부 비평가로 통합하여 수치 능력을 향상시킵니다. 그러나 이러한 비평가들은 생성 과정에서 그래디언트 지도를 제공해야 하므로, 본질적으로 미분 가능한 회귀 기반 모델로 제한됩니다. 이로 인해 더 우수한 계수 능력을 가진 검출기 기반 모델들은 그 열거-기반-계수 특성이 미분 불가능하므로 배제됩니다. 이러한 한계를 극복하기 위해 우리는 비분화 가능 검출 모델을 미분 가능 비평가로 변환하여 그 우수한 계수 능력을 활용해 수치 생성 지도를 가능하게 하는 새로운 프레임워크인 Detector-to-Differentiable(D2D)를 제안합니다. 구체적으로, 우리는 검출기 로짓을 연성 이진 지표로 변환하는 사용자 정의 활성화 함수를 설계하며, 이는 추론 시 미리 훈련된 T2I 모델과 함께 잡음 사전 분포를 최적화하는 데 사용됩니다. 다양한 복잡도의 네 가지 벤치마크(저밀도, 고밀도, 다중 객체 시나리오)에 대해 SDXL-Turbo, SD-Turbo, Pixart-DMD를 대상으로 한 폭넓은 실험을 통해 객체 계수 정확도에서 일관적이고 상당한 향상(예: 400개 프롬프트의 저밀도 벤치마크인 D2D-Small에서 최대 13.7% 향상)을 확인했으며, 전반적인 이미지 품질과 계산 오버헤드의 저하는 최소화되었습니다.
English
Text-to-image (T2I) diffusion models have achieved strong performance in semantic alignment, yet they still struggle with generating the correct number of objects specified in prompts. Existing approaches typically incorporate auxiliary counting networks as external critics to enhance numeracy. However, since these critics must provide gradient guidance during generation, they are restricted to regression-based models that are inherently differentiable, thus excluding detector-based models with superior counting ability, whose count-via-enumeration nature is non-differentiable. To overcome this limitation, we propose Detector-to-Differentiable (D2D), a novel framework that transforms non-differentiable detection models into differentiable critics, thereby leveraging their superior counting ability to guide numeracy generation. Specifically, we design custom activation functions to convert detector logits into soft binary indicators, which are then used to optimize the noise prior at inference time with pre-trained T2I models. Our extensive experiments on SDXL-Turbo, SD-Turbo, and Pixart-DMD across four benchmarks of varying complexity (low-density, high-density, and multi-object scenarios) demonstrate consistent and substantial improvements in object counting accuracy (e.g., boosting up to 13.7% on D2D-Small, a 400-prompt, low-density benchmark), with minimal degradation in overall image quality and computational overhead.
PDF22December 2, 2025