Die Ausrichtung des generativen Entrauschens an diskriminativen Zielen ermöglicht den Einsatz von Diffusion für die visuelle Wahrnehmung.

papers.abstract

Mit dem Erfolg der Bildgenerierung werden generative Diffusionsmodelle zunehmend für diskriminative Aufgaben übernommen, da die Pixelgenerierung eine einheitliche Wahrnehmungsschnittstelle bietet. Die direkte Umwidmung des generativen Entrauschungsprozesses für diskriminative Ziele offenbart jedoch kritische Lücken, die bisher kaum angesprochen wurden. Generative Modelle tolerieren Zwischensamplingfehler, wenn die endgültige Verteilung plausibel bleibt, aber diskriminative Aufgaben erfordern durchgängig strenge Genauigkeit, wie in anspruchsvollen multimodalen Aufgaben wie der referenziellen Bildsegmentierung deutlich wird. Motiviert durch diese Lücke analysieren und verbessern wir die Ausrichtung zwischen generativen Diffusionsprozessen und Wahrnehmungsaufgaben, wobei wir uns darauf konzentrieren, wie sich die Wahrnehmungsqualität während des Entrauschens entwickelt. Wir stellen fest: (1) Frühere Entrauschungsschritte tragen überproportional zur Wahrnehmungsqualität bei, was uns veranlasst, maßgeschneiderte Lernziele vorzuschlagen, die die unterschiedlichen Beiträge der Zeitschritte widerspiegeln; (2) spätere Entrauschungsschritte zeigen unerwartete Wahrnehmungsverschlechterungen, was die Empfindlichkeit gegenüber Verschiebungen in der Trainings-Entrauschungsverteilung hervorhebt, die durch unsere diffusionsspezifische Datenaugmentierung angegangen wird; und (3) generative Prozesse ermöglichen einzigartige Interaktivität und dienen als steuerbare Benutzerschnittstellen, die sich an Korrekturhinweise in mehrfachen Interaktionen anpassen lassen. Unsere Erkenntnisse verbessern diffusionsbasierte Wahrnehmungsmodelle erheblich, ohne architektonische Änderungen vorzunehmen, und erreichen Spitzenleistungen bei der Tiefenschätzung, der referenziellen Bildsegmentierung und allgemeinen Wahrnehmungsaufgaben. Code verfügbar unter https://github.com/ziqipang/ADDP.

English

With the success of image generation, generative diffusion models are increasingly adopted for discriminative tasks, as pixel generation provides a unified perception interface. However, directly repurposing the generative denoising process for discriminative objectives reveals critical gaps rarely addressed previously. Generative models tolerate intermediate sampling errors if the final distribution remains plausible, but discriminative tasks require rigorous accuracy throughout, as evidenced in challenging multi-modal tasks like referring image segmentation. Motivated by this gap, we analyze and enhance alignment between generative diffusion processes and perception tasks, focusing on how perception quality evolves during denoising. We find: (1) earlier denoising steps contribute disproportionately to perception quality, prompting us to propose tailored learning objectives reflecting varying timestep contributions; (2) later denoising steps show unexpected perception degradation, highlighting sensitivity to training-denoising distribution shifts, addressed by our diffusion-tailored data augmentation; and (3) generative processes uniquely enable interactivity, serving as controllable user interfaces adaptable to correctional prompts in multi-round interactions. Our insights significantly improve diffusion-based perception models without architectural changes, achieving state-of-the-art performance on depth estimation, referring image segmentation, and generalist perception tasks. Code available at https://github.com/ziqipang/ADDP.

Die Ausrichtung des generativen Entrauschens an diskriminativen Zielen ermöglicht den Einsatz von Diffusion für die visuelle Wahrnehmung.

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

papers.abstract

Support