Die Ausrichtung des generativen Entrauschens an diskriminativen Zielen ermöglicht den Einsatz von Diffusion für die visuelle Wahrnehmung.
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
April 15, 2025
Autoren: Ziqi Pang, Xin Xu, Yu-Xiong Wang
cs.AI
Zusammenfassung
Mit dem Erfolg der Bildgenerierung werden generative Diffusionsmodelle zunehmend für diskriminative Aufgaben übernommen, da die Pixelgenerierung eine einheitliche Wahrnehmungsschnittstelle bietet. Die direkte Umwidmung des generativen Entrauschungsprozesses für diskriminative Ziele offenbart jedoch kritische Lücken, die bisher kaum angesprochen wurden. Generative Modelle tolerieren Zwischensamplingfehler, wenn die endgültige Verteilung plausibel bleibt, aber diskriminative Aufgaben erfordern durchgängig strenge Genauigkeit, wie in anspruchsvollen multimodalen Aufgaben wie der referenziellen Bildsegmentierung deutlich wird. Motiviert durch diese Lücke analysieren und verbessern wir die Ausrichtung zwischen generativen Diffusionsprozessen und Wahrnehmungsaufgaben, wobei wir uns darauf konzentrieren, wie sich die Wahrnehmungsqualität während des Entrauschens entwickelt. Wir stellen fest: (1) Frühere Entrauschungsschritte tragen überproportional zur Wahrnehmungsqualität bei, was uns veranlasst, maßgeschneiderte Lernziele vorzuschlagen, die die unterschiedlichen Beiträge der Zeitschritte widerspiegeln; (2) spätere Entrauschungsschritte zeigen unerwartete Wahrnehmungsverschlechterungen, was die Empfindlichkeit gegenüber Verschiebungen in der Trainings-Entrauschungsverteilung hervorhebt, die durch unsere diffusionsspezifische Datenaugmentierung angegangen wird; und (3) generative Prozesse ermöglichen einzigartige Interaktivität und dienen als steuerbare Benutzerschnittstellen, die sich an Korrekturhinweise in mehrfachen Interaktionen anpassen lassen. Unsere Erkenntnisse verbessern diffusionsbasierte Wahrnehmungsmodelle erheblich, ohne architektonische Änderungen vorzunehmen, und erreichen Spitzenleistungen bei der Tiefenschätzung, der referenziellen Bildsegmentierung und allgemeinen Wahrnehmungsaufgaben. Code verfügbar unter https://github.com/ziqipang/ADDP.
English
With the success of image generation, generative diffusion models are
increasingly adopted for discriminative tasks, as pixel generation provides a
unified perception interface. However, directly repurposing the generative
denoising process for discriminative objectives reveals critical gaps rarely
addressed previously. Generative models tolerate intermediate sampling errors
if the final distribution remains plausible, but discriminative tasks require
rigorous accuracy throughout, as evidenced in challenging multi-modal tasks
like referring image segmentation. Motivated by this gap, we analyze and
enhance alignment between generative diffusion processes and perception tasks,
focusing on how perception quality evolves during denoising. We find: (1)
earlier denoising steps contribute disproportionately to perception quality,
prompting us to propose tailored learning objectives reflecting varying
timestep contributions; (2) later denoising steps show unexpected perception
degradation, highlighting sensitivity to training-denoising distribution
shifts, addressed by our diffusion-tailored data augmentation; and (3)
generative processes uniquely enable interactivity, serving as controllable
user interfaces adaptable to correctional prompts in multi-round interactions.
Our insights significantly improve diffusion-based perception models without
architectural changes, achieving state-of-the-art performance on depth
estimation, referring image segmentation, and generalist perception tasks. Code
available at https://github.com/ziqipang/ADDP.Summary
AI-Generated Summary