Alinhar a Eliminação de Ruído Generativa com Objetivos Discriminativos Liberta a Difusão para a Percepção Visual
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
April 15, 2025
Autores: Ziqi Pang, Xin Xu, Yu-Xiong Wang
cs.AI
Resumo
Com o sucesso da geração de imagens, os modelos generativos de difusão estão sendo cada vez mais adotados para tarefas discriminativas, uma vez que a geração de pixels fornece uma interface de percepção unificada. No entanto, a reutilização direta do processo generativo de remoção de ruído para objetivos discriminativos revela lacunas críticas raramente abordadas anteriormente. Modelos generativos toleram erros intermediários de amostragem se a distribuição final permanecer plausível, mas tarefas discriminativas exigem precisão rigorosa em todo o processo, como evidenciado em tarefas multimodais desafiadoras, como a segmentação de imagens por referência. Motivados por essa lacuna, analisamos e aprimoramos o alinhamento entre processos generativos de difusão e tarefas de percepção, focando em como a qualidade da percepção evolui durante a remoção de ruído. Descobrimos: (1) etapas iniciais de remoção de ruído contribuem desproporcionalmente para a qualidade da percepção, levando-nos a propor objetivos de aprendizado personalizados que refletem as contribuições variáveis em diferentes intervalos de tempo; (2) etapas posteriores de remoção de ruído mostram uma degradação inesperada da percepção, destacando a sensibilidade a mudanças na distribuição de treinamento-remoção de ruído, abordada por nossa técnica de aumento de dados adaptada à difusão; e (3) processos generativos permitem de forma única a interatividade, servindo como interfaces de usuário controláveis e adaptáveis a prompts corretivos em interações de múltiplas rodadas. Nossas descobertas melhoram significativamente os modelos de percepção baseados em difusão sem alterações arquitetônicas, alcançando desempenho de ponta em estimativa de profundidade, segmentação de imagens por referência e tarefas de percepção generalistas. Código disponível em https://github.com/ziqipang/ADDP.
English
With the success of image generation, generative diffusion models are
increasingly adopted for discriminative tasks, as pixel generation provides a
unified perception interface. However, directly repurposing the generative
denoising process for discriminative objectives reveals critical gaps rarely
addressed previously. Generative models tolerate intermediate sampling errors
if the final distribution remains plausible, but discriminative tasks require
rigorous accuracy throughout, as evidenced in challenging multi-modal tasks
like referring image segmentation. Motivated by this gap, we analyze and
enhance alignment between generative diffusion processes and perception tasks,
focusing on how perception quality evolves during denoising. We find: (1)
earlier denoising steps contribute disproportionately to perception quality,
prompting us to propose tailored learning objectives reflecting varying
timestep contributions; (2) later denoising steps show unexpected perception
degradation, highlighting sensitivity to training-denoising distribution
shifts, addressed by our diffusion-tailored data augmentation; and (3)
generative processes uniquely enable interactivity, serving as controllable
user interfaces adaptable to correctional prompts in multi-round interactions.
Our insights significantly improve diffusion-based perception models without
architectural changes, achieving state-of-the-art performance on depth
estimation, referring image segmentation, and generalist perception tasks. Code
available at https://github.com/ziqipang/ADDP.Summary
AI-Generated Summary