Het afstemmen van generatieve denoising op discriminatieve doelen ontketent diffusie voor visuele perceptie.
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
April 15, 2025
Auteurs: Ziqi Pang, Xin Xu, Yu-Xiong Wang
cs.AI
Samenvatting
Met het succes van beeldgeneratie worden generatieve diffusiemodellen steeds vaker ingezet voor discriminatieve taken, aangezien pixelgeneratie een uniforme perceptie-interface biedt. Het direct hergebruiken van het generatieve ruisverwijderingsproces voor discriminatieve doeleinden onthult echter kritieke hiaten die eerder zelden werden aangepakt. Generatieve modellen tolereren tussenliggende steekproeffouten als de uiteindelijke distributie plausibel blijft, maar discriminatieve taken vereisen rigoureuze nauwkeurigheid gedurende het hele proces, zoals blijkt uit uitdagende multimodale taken zoals verwijzende beeldsegmentatie. Gemotiveerd door deze kloof analyseren en verbeteren we de afstemming tussen generatieve diffusieprocessen en perceptietaken, met de focus op hoe de perceptiekwaliteit evolueert tijdens ruisverwijdering. We ontdekken: (1) eerdere ruisverwijderingsstappen dragen onevenredig veel bij aan de perceptiekwaliteit, wat ons ertoe aanzet om op maat gemaakte leerdoelen voor te stellen die de verschillende bijdragen van tijdstappen weerspiegelen; (2) latere ruisverwijderingsstappen vertonen onverwachte perceptieverslechtering, wat de gevoeligheid voor verschuivingen in de trainings-ruisverwijderingsdistributie benadrukt, aangepakt door onze op diffusie afgestemde data-augmentatie; en (3) generatieve processen maken uniek interactiviteit mogelijk, dienend als bestuurbare gebruikersinterfaces die aanpasbaar zijn aan correctieprompts in meervoudige interacties. Onze inzichten verbeteren diffusiegebaseerde perceptiemodellen aanzienlijk zonder architectuurwijzigingen, wat resulteert in state-of-the-art prestaties op diepteschatting, verwijzende beeldsegmentatie en algemene perceptietaken. Code beschikbaar op https://github.com/ziqipang/ADDP.
English
With the success of image generation, generative diffusion models are
increasingly adopted for discriminative tasks, as pixel generation provides a
unified perception interface. However, directly repurposing the generative
denoising process for discriminative objectives reveals critical gaps rarely
addressed previously. Generative models tolerate intermediate sampling errors
if the final distribution remains plausible, but discriminative tasks require
rigorous accuracy throughout, as evidenced in challenging multi-modal tasks
like referring image segmentation. Motivated by this gap, we analyze and
enhance alignment between generative diffusion processes and perception tasks,
focusing on how perception quality evolves during denoising. We find: (1)
earlier denoising steps contribute disproportionately to perception quality,
prompting us to propose tailored learning objectives reflecting varying
timestep contributions; (2) later denoising steps show unexpected perception
degradation, highlighting sensitivity to training-denoising distribution
shifts, addressed by our diffusion-tailored data augmentation; and (3)
generative processes uniquely enable interactivity, serving as controllable
user interfaces adaptable to correctional prompts in multi-round interactions.
Our insights significantly improve diffusion-based perception models without
architectural changes, achieving state-of-the-art performance on depth
estimation, referring image segmentation, and generalist perception tasks. Code
available at https://github.com/ziqipang/ADDP.Summary
AI-Generated Summary