ChatPaper.aiChatPaper

L'alignement du débruitage génératif avec les objectifs discriminatifs libère le potentiel de la diffusion pour la perception visuelle

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

April 15, 2025
Auteurs: Ziqi Pang, Xin Xu, Yu-Xiong Wang
cs.AI

Résumé

Avec le succès de la génération d'images, les modèles de diffusion générative sont de plus en plus adoptés pour des tâches discriminatives, car la génération de pixels fournit une interface de perception unifiée. Cependant, le simple réemploi du processus génératif de débruitage pour des objectifs discriminatifs révèle des lacunes critiques rarement abordées auparavant. Les modèles génératifs tolèrent les erreurs d'échantillonnage intermédiaires si la distribution finale reste plausible, mais les tâches discriminatives nécessitent une précision rigoureuse tout au long du processus, comme en témoignent les tâches multimodales complexes telles que la segmentation d'images par référence. Motivés par cette lacune, nous analysons et améliorons l'alignement entre les processus de diffusion générative et les tâches de perception, en nous concentrant sur l'évolution de la qualité de perception pendant le débruitage. Nous constatons : (1) les étapes de débruitage initiales contribuent de manière disproportionnée à la qualité de perception, ce qui nous incite à proposer des objectifs d'apprentissage adaptés reflétant les contributions variables selon les pas de temps ; (2) les étapes de débruitage ultérieures montrent une dégradation inattendue de la perception, mettant en évidence la sensibilité aux décalages de distribution entre l'entraînement et le débruitage, que nous résolvons par une augmentation de données spécifique à la diffusion ; et (3) les processus génératifs permettent de manière unique l'interactivité, servant d'interfaces utilisateur contrôlables adaptables aux invites correctives dans les interactions multi-tours. Nos insights améliorent significativement les modèles de perception basés sur la diffusion sans modifications architecturales, atteignant des performances de pointe en estimation de profondeur, segmentation d'images par référence et tâches de perception généralistes. Le code est disponible à l'adresse https://github.com/ziqipang/ADDP.
English
With the success of image generation, generative diffusion models are increasingly adopted for discriminative tasks, as pixel generation provides a unified perception interface. However, directly repurposing the generative denoising process for discriminative objectives reveals critical gaps rarely addressed previously. Generative models tolerate intermediate sampling errors if the final distribution remains plausible, but discriminative tasks require rigorous accuracy throughout, as evidenced in challenging multi-modal tasks like referring image segmentation. Motivated by this gap, we analyze and enhance alignment between generative diffusion processes and perception tasks, focusing on how perception quality evolves during denoising. We find: (1) earlier denoising steps contribute disproportionately to perception quality, prompting us to propose tailored learning objectives reflecting varying timestep contributions; (2) later denoising steps show unexpected perception degradation, highlighting sensitivity to training-denoising distribution shifts, addressed by our diffusion-tailored data augmentation; and (3) generative processes uniquely enable interactivity, serving as controllable user interfaces adaptable to correctional prompts in multi-round interactions. Our insights significantly improve diffusion-based perception models without architectural changes, achieving state-of-the-art performance on depth estimation, referring image segmentation, and generalist perception tasks. Code available at https://github.com/ziqipang/ADDP.

Summary

AI-Generated Summary

PDF22April 16, 2025