ChatPaper.aiChatPaper

Los clasificadores de difusión comprenden la composicionalidad, pero con ciertas condiciones.

Diffusion Classifiers Understand Compositionality, but Conditions Apply

May 23, 2025
Autores: Yujin Jeong, Arnas Uselis, Seong Joon Oh, Anna Rohrbach
cs.AI

Resumen

Comprender escenas visuales es fundamental para la inteligencia humana. Si bien los modelos discriminativos han avanzado significativamente la visión por computadora, a menudo tienen dificultades con la comprensión composicional. En contraste, los recientes modelos generativos de difusión de texto a imagen sobresalen en la síntesis de escenas complejas, sugiriendo capacidades composicionales inherentes. Basándose en esto, se han propuesto clasificadores de difusión de cero-shot para reutilizar modelos de difusión en tareas discriminativas. Aunque trabajos previos ofrecieron resultados prometedores en escenarios composicionales discriminativos, estos resultados siguen siendo preliminares debido a un número reducido de benchmarks y un análisis relativamente superficial de las condiciones bajo las cuales los modelos tienen éxito. Para abordar esto, presentamos un estudio exhaustivo de las capacidades discriminativas de los clasificadores de difusión en una amplia gama de tareas composicionales. Específicamente, nuestro estudio cubre tres modelos de difusión (SD 1.5, 2.0 y, por primera vez, 3-m) abarcando 10 conjuntos de datos y más de 30 tareas. Además, arrojamos luz sobre el papel que juegan los dominios de los conjuntos de datos objetivo en el rendimiento respectivo; para aislar los efectos del dominio, introducimos un nuevo benchmark diagnóstico llamado Self-Bench, compuesto por imágenes creadas por los propios modelos de difusión. Finalmente, exploramos la importancia de la ponderación de los pasos temporales y descubrimos una relación entre la brecha de dominio y la sensibilidad a los pasos temporales, particularmente para SD3-m. En resumen, los clasificadores de difusión comprenden la composicionalidad, ¡pero con condiciones! El código y el conjunto de datos están disponibles en https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
English
Understanding visual scenes is fundamental to human intelligence. While discriminative models have significantly advanced computer vision, they often struggle with compositional understanding. In contrast, recent generative text-to-image diffusion models excel at synthesizing complex scenes, suggesting inherent compositional capabilities. Building on this, zero-shot diffusion classifiers have been proposed to repurpose diffusion models for discriminative tasks. While prior work offered promising results in discriminative compositional scenarios, these results remain preliminary due to a small number of benchmarks and a relatively shallow analysis of conditions under which the models succeed. To address this, we present a comprehensive study of the discriminative capabilities of diffusion classifiers on a wide range of compositional tasks. Specifically, our study covers three diffusion models (SD 1.5, 2.0, and, for the first time, 3-m) spanning 10 datasets and over 30 tasks. Further, we shed light on the role that target dataset domains play in respective performance; to isolate the domain effects, we introduce a new diagnostic benchmark Self-Bench comprised of images created by diffusion models themselves. Finally, we explore the importance of timestep weighting and uncover a relationship between domain gap and timestep sensitivity, particularly for SD3-m. To sum up, diffusion classifiers understand compositionality, but conditions apply! Code and dataset are available at https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.

Summary

AI-Generated Summary

PDF183May 26, 2025