Диффузионные классификаторы понимают композициональность, но с определенными условиями.
Diffusion Classifiers Understand Compositionality, but Conditions Apply
May 23, 2025
Авторы: Yujin Jeong, Arnas Uselis, Seong Joon Oh, Anna Rohrbach
cs.AI
Аннотация
Понимание визуальных сцен является фундаментальным аспектом человеческого интеллекта. Хотя дискриминативные модели значительно продвинули компьютерное зрение, они часто испытывают трудности с композиционным пониманием. В отличие от них, современные генеративные модели текста в изображение, основанные на диффузии, демонстрируют превосходство в синтезе сложных сцен, что указывает на их врожденные композиционные способности. Опираясь на это, были предложены классификаторы с нулевым обучением на основе диффузии, которые перепрофилируют диффузионные модели для выполнения дискриминативных задач. Хотя предыдущие работы показали многообещающие результаты в дискриминативных композиционных сценариях, эти результаты остаются предварительными из-за ограниченного числа бенчмарков и относительно поверхностного анализа условий, при которых модели достигают успеха. Чтобы устранить этот пробел, мы представляем всестороннее исследование дискриминативных способностей диффузионных классификаторов на широком спектре композиционных задач. В частности, наше исследование охватывает три диффузионные модели (SD 1.5, 2.0 и, впервые, 3-m), 10 наборов данных и более 30 задач. Кроме того, мы проливаем свет на роль, которую играют домены целевых наборов данных в соответствующей производительности; чтобы изолировать эффекты доменов, мы вводим новый диагностический бенчмарк Self-Bench, состоящий из изображений, созданных самими диффузионными моделями. Наконец, мы исследуем важность взвешивания временных шагов и выявляем связь между разрывом доменов и чувствительностью к временным шагам, особенно для SD3-m. В заключение, диффузионные классификаторы понимают композиционность, но с оговорками! Код и набор данных доступны по адресу https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
English
Understanding visual scenes is fundamental to human intelligence. While
discriminative models have significantly advanced computer vision, they often
struggle with compositional understanding. In contrast, recent generative
text-to-image diffusion models excel at synthesizing complex scenes, suggesting
inherent compositional capabilities. Building on this, zero-shot diffusion
classifiers have been proposed to repurpose diffusion models for discriminative
tasks. While prior work offered promising results in discriminative
compositional scenarios, these results remain preliminary due to a small number
of benchmarks and a relatively shallow analysis of conditions under which the
models succeed. To address this, we present a comprehensive study of the
discriminative capabilities of diffusion classifiers on a wide range of
compositional tasks. Specifically, our study covers three diffusion models (SD
1.5, 2.0, and, for the first time, 3-m) spanning 10 datasets and over 30 tasks.
Further, we shed light on the role that target dataset domains play in
respective performance; to isolate the domain effects, we introduce a new
diagnostic benchmark Self-Bench comprised of images created by diffusion models
themselves. Finally, we explore the importance of timestep weighting and
uncover a relationship between domain gap and timestep sensitivity,
particularly for SD3-m. To sum up, diffusion classifiers understand
compositionality, but conditions apply! Code and dataset are available at
https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.Summary
AI-Generated Summary