ChatPaper.aiChatPaper

Диффузионные классификаторы понимают композициональность, но с определенными условиями.

Diffusion Classifiers Understand Compositionality, but Conditions Apply

May 23, 2025
Авторы: Yujin Jeong, Arnas Uselis, Seong Joon Oh, Anna Rohrbach
cs.AI

Аннотация

Понимание визуальных сцен является фундаментальным аспектом человеческого интеллекта. Хотя дискриминативные модели значительно продвинули компьютерное зрение, они часто испытывают трудности с композиционным пониманием. В отличие от них, современные генеративные модели текста в изображение, основанные на диффузии, демонстрируют превосходство в синтезе сложных сцен, что указывает на их врожденные композиционные способности. Опираясь на это, были предложены классификаторы с нулевым обучением на основе диффузии, которые перепрофилируют диффузионные модели для выполнения дискриминативных задач. Хотя предыдущие работы показали многообещающие результаты в дискриминативных композиционных сценариях, эти результаты остаются предварительными из-за ограниченного числа бенчмарков и относительно поверхностного анализа условий, при которых модели достигают успеха. Чтобы устранить этот пробел, мы представляем всестороннее исследование дискриминативных способностей диффузионных классификаторов на широком спектре композиционных задач. В частности, наше исследование охватывает три диффузионные модели (SD 1.5, 2.0 и, впервые, 3-m), 10 наборов данных и более 30 задач. Кроме того, мы проливаем свет на роль, которую играют домены целевых наборов данных в соответствующей производительности; чтобы изолировать эффекты доменов, мы вводим новый диагностический бенчмарк Self-Bench, состоящий из изображений, созданных самими диффузионными моделями. Наконец, мы исследуем важность взвешивания временных шагов и выявляем связь между разрывом доменов и чувствительностью к временным шагам, особенно для SD3-m. В заключение, диффузионные классификаторы понимают композиционность, но с оговорками! Код и набор данных доступны по адресу https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
English
Understanding visual scenes is fundamental to human intelligence. While discriminative models have significantly advanced computer vision, they often struggle with compositional understanding. In contrast, recent generative text-to-image diffusion models excel at synthesizing complex scenes, suggesting inherent compositional capabilities. Building on this, zero-shot diffusion classifiers have been proposed to repurpose diffusion models for discriminative tasks. While prior work offered promising results in discriminative compositional scenarios, these results remain preliminary due to a small number of benchmarks and a relatively shallow analysis of conditions under which the models succeed. To address this, we present a comprehensive study of the discriminative capabilities of diffusion classifiers on a wide range of compositional tasks. Specifically, our study covers three diffusion models (SD 1.5, 2.0, and, for the first time, 3-m) spanning 10 datasets and over 30 tasks. Further, we shed light on the role that target dataset domains play in respective performance; to isolate the domain effects, we introduce a new diagnostic benchmark Self-Bench comprised of images created by diffusion models themselves. Finally, we explore the importance of timestep weighting and uncover a relationship between domain gap and timestep sensitivity, particularly for SD3-m. To sum up, diffusion classifiers understand compositionality, but conditions apply! Code and dataset are available at https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.

Summary

AI-Generated Summary

PDF183May 26, 2025