Alinear la generación de desruido con objetivos discriminativos libera el potencial de la difusión para la percepción visual.
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
April 15, 2025
Autores: Ziqi Pang, Xin Xu, Yu-Xiong Wang
cs.AI
Resumen
Con el éxito de la generación de imágenes, los modelos de difusión generativa se están adoptando cada vez más para tareas discriminativas, ya que la generación de píxeles proporciona una interfaz de percepción unificada. Sin embargo, reutilizar directamente el proceso de eliminación de ruido generativo para objetivos discriminativos revela brechas críticas que rara vez se han abordado anteriormente. Los modelos generativos toleran errores de muestreo intermedios si la distribución final sigue siendo plausible, pero las tareas discriminativas requieren una precisión rigurosa en todo momento, como se evidencia en tareas multimodales desafiantes como la segmentación de imágenes referenciales. Motivados por esta brecha, analizamos y mejoramos la alineación entre los procesos de difusión generativa y las tareas de percepción, centrándonos en cómo evoluciona la calidad de la percepción durante la eliminación de ruido. Encontramos: (1) los pasos iniciales de eliminación de ruido contribuyen de manera desproporcionada a la calidad de la percepción, lo que nos lleva a proponer objetivos de aprendizaje personalizados que reflejan las contribuciones variables en cada paso temporal; (2) los pasos posteriores de eliminación de ruido muestran una degradación inesperada de la percepción, destacando la sensibilidad a los cambios en la distribución de entrenamiento-eliminación de ruido, abordada por nuestra ampliación de datos adaptada a la difusión; y (3) los procesos generativos permiten de manera única la interactividad, sirviendo como interfaces de usuario controlables adaptables a indicaciones correctivas en interacciones de múltiples rondas. Nuestras ideas mejoran significativamente los modelos de percepción basados en difusión sin cambios arquitectónicos, logrando un rendimiento de vanguardia en estimación de profundidad, segmentación de imágenes referenciales y tareas de percepción generalistas. El código está disponible en https://github.com/ziqipang/ADDP.
English
With the success of image generation, generative diffusion models are
increasingly adopted for discriminative tasks, as pixel generation provides a
unified perception interface. However, directly repurposing the generative
denoising process for discriminative objectives reveals critical gaps rarely
addressed previously. Generative models tolerate intermediate sampling errors
if the final distribution remains plausible, but discriminative tasks require
rigorous accuracy throughout, as evidenced in challenging multi-modal tasks
like referring image segmentation. Motivated by this gap, we analyze and
enhance alignment between generative diffusion processes and perception tasks,
focusing on how perception quality evolves during denoising. We find: (1)
earlier denoising steps contribute disproportionately to perception quality,
prompting us to propose tailored learning objectives reflecting varying
timestep contributions; (2) later denoising steps show unexpected perception
degradation, highlighting sensitivity to training-denoising distribution
shifts, addressed by our diffusion-tailored data augmentation; and (3)
generative processes uniquely enable interactivity, serving as controllable
user interfaces adaptable to correctional prompts in multi-round interactions.
Our insights significantly improve diffusion-based perception models without
architectural changes, achieving state-of-the-art performance on depth
estimation, referring image segmentation, and generalist perception tasks. Code
available at https://github.com/ziqipang/ADDP.Summary
AI-Generated Summary