Classificadores de Difusão Compreendem Composicionalidade, mas com Restrições
Diffusion Classifiers Understand Compositionality, but Conditions Apply
May 23, 2025
Autores: Yujin Jeong, Arnas Uselis, Seong Joon Oh, Anna Rohrbach
cs.AI
Resumo
Compreender cenas visuais é fundamental para a inteligência humana. Embora modelos discriminativos tenham avançado significativamente a visão computacional, eles frequentemente enfrentam dificuldades com o entendimento composicional. Em contraste, recentes modelos generativos de difusão texto-para-imagem se destacam na síntese de cenas complexas, sugerindo capacidades composicionais inerentes. Com base nisso, classificadores de difusão zero-shot foram propostos para reutilizar modelos de difusão em tarefas discriminativas. Embora trabalhos anteriores tenham apresentado resultados promissores em cenários discriminativos composicionais, esses resultados permanecem preliminares devido ao pequeno número de benchmarks e a uma análise relativamente superficial das condições sob as quais os modelos têm sucesso. Para abordar isso, apresentamos um estudo abrangente das capacidades discriminativas de classificadores de difusão em uma ampla gama de tarefas composicionais. Especificamente, nosso estudo abrange três modelos de difusão (SD 1.5, 2.0 e, pela primeira vez, 3-m) em 10 conjuntos de dados e mais de 30 tarefas. Além disso, esclarecemos o papel que os domínios dos conjuntos de dados alvo desempenham no desempenho respectivo; para isolar os efeitos do domínio, introduzimos um novo benchmark de diagnóstico chamado Self-Bench, composto por imagens criadas pelos próprios modelos de difusão. Por fim, exploramos a importância da ponderação de timesteps e descobrimos uma relação entre a lacuna de domínio e a sensibilidade ao timestep, particularmente para o SD3-m. Em resumo, classificadores de difusão entendem composicionalidade, mas há condições! O código e o conjunto de dados estão disponíveis em https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
English
Understanding visual scenes is fundamental to human intelligence. While
discriminative models have significantly advanced computer vision, they often
struggle with compositional understanding. In contrast, recent generative
text-to-image diffusion models excel at synthesizing complex scenes, suggesting
inherent compositional capabilities. Building on this, zero-shot diffusion
classifiers have been proposed to repurpose diffusion models for discriminative
tasks. While prior work offered promising results in discriminative
compositional scenarios, these results remain preliminary due to a small number
of benchmarks and a relatively shallow analysis of conditions under which the
models succeed. To address this, we present a comprehensive study of the
discriminative capabilities of diffusion classifiers on a wide range of
compositional tasks. Specifically, our study covers three diffusion models (SD
1.5, 2.0, and, for the first time, 3-m) spanning 10 datasets and over 30 tasks.
Further, we shed light on the role that target dataset domains play in
respective performance; to isolate the domain effects, we introduce a new
diagnostic benchmark Self-Bench comprised of images created by diffusion models
themselves. Finally, we explore the importance of timestep weighting and
uncover a relationship between domain gap and timestep sensitivity,
particularly for SD3-m. To sum up, diffusion classifiers understand
compositionality, but conditions apply! Code and dataset are available at
https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.