Diffusionsklassifikatoren verstehen Kompositionalität, jedoch unter bestimmten Bedingungen.
Diffusion Classifiers Understand Compositionality, but Conditions Apply
May 23, 2025
Autoren: Yujin Jeong, Arnas Uselis, Seong Joon Oh, Anna Rohrbach
cs.AI
Zusammenfassung
Das Verständnis visueller Szenen ist grundlegend für die menschliche Intelligenz. Während diskriminative Modelle die Computer Vision erheblich vorangebracht haben, kämpfen sie oft mit dem Verständnis von Kompositionen. Im Gegensatz dazu zeichnen sich neuere generative Text-zu-Bild-Diffusionsmodelle durch die Synthese komplexer Szenen aus, was auf inhärente kompositionelle Fähigkeiten hindeutet. Aufbauend darauf wurden Zero-Shot-Diffusionsklassifikatoren vorgeschlagen, um Diffusionsmodelle für diskriminative Aufgaben umzuwidmen. Während frühere Arbeiten vielversprechende Ergebnisse in diskriminativen kompositionellen Szenarien lieferten, bleiben diese Ergebnisse aufgrund einer geringen Anzahl von Benchmarks und einer relativ oberflächlichen Analyse der Bedingungen, unter denen die Modelle erfolgreich sind, vorläufig. Um dies zu adressieren, präsentieren wir eine umfassende Studie der diskriminativen Fähigkeiten von Diffusionsklassifikatoren in einer Vielzahl von kompositionellen Aufgaben. Konkret deckt unsere Studie drei Diffusionsmodelle (SD 1.5, 2.0 und erstmals 3-m) ab, die 10 Datensätze und über 30 Aufgaben umfassen. Darüber hinaus beleuchten wir die Rolle, die die Domänen der Ziel-Datensätze für die jeweilige Leistung spielen; um die Domäneneffekte zu isolieren, führen wir einen neuen diagnostischen Benchmark namens Self-Bench ein, der aus Bildern besteht, die von Diffusionsmodellen selbst erstellt wurden. Schließlich untersuchen wir die Bedeutung der Gewichtung von Zeitschritten und decken einen Zusammenhang zwischen Domänenlücke und Zeitschrittempfindlichkeit auf, insbesondere für SD3-m. Zusammenfassend lässt sich sagen, dass Diffusionsklassifikatoren Kompositionalität verstehen, aber es gelten Bedingungen! Code und Datensatz sind verfügbar unter https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
English
Understanding visual scenes is fundamental to human intelligence. While
discriminative models have significantly advanced computer vision, they often
struggle with compositional understanding. In contrast, recent generative
text-to-image diffusion models excel at synthesizing complex scenes, suggesting
inherent compositional capabilities. Building on this, zero-shot diffusion
classifiers have been proposed to repurpose diffusion models for discriminative
tasks. While prior work offered promising results in discriminative
compositional scenarios, these results remain preliminary due to a small number
of benchmarks and a relatively shallow analysis of conditions under which the
models succeed. To address this, we present a comprehensive study of the
discriminative capabilities of diffusion classifiers on a wide range of
compositional tasks. Specifically, our study covers three diffusion models (SD
1.5, 2.0, and, for the first time, 3-m) spanning 10 datasets and over 30 tasks.
Further, we shed light on the role that target dataset domains play in
respective performance; to isolate the domain effects, we introduce a new
diagnostic benchmark Self-Bench comprised of images created by diffusion models
themselves. Finally, we explore the importance of timestep weighting and
uncover a relationship between domain gap and timestep sensitivity,
particularly for SD3-m. To sum up, diffusion classifiers understand
compositionality, but conditions apply! Code and dataset are available at
https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.Summary
AI-Generated Summary