Alinear la generación de desruido con objetivos discriminativos libera el potencial de la difusión para la percepción visual.

Resumen

Con el éxito de la generación de imágenes, los modelos de difusión generativa se están adoptando cada vez más para tareas discriminativas, ya que la generación de píxeles proporciona una interfaz de percepción unificada. Sin embargo, reutilizar directamente el proceso de eliminación de ruido generativo para objetivos discriminativos revela brechas críticas que rara vez se han abordado anteriormente. Los modelos generativos toleran errores de muestreo intermedios si la distribución final sigue siendo plausible, pero las tareas discriminativas requieren una precisión rigurosa en todo momento, como se evidencia en tareas multimodales desafiantes como la segmentación de imágenes referenciales. Motivados por esta brecha, analizamos y mejoramos la alineación entre los procesos de difusión generativa y las tareas de percepción, centrándonos en cómo evoluciona la calidad de la percepción durante la eliminación de ruido. Encontramos: (1) los pasos iniciales de eliminación de ruido contribuyen de manera desproporcionada a la calidad de la percepción, lo que nos lleva a proponer objetivos de aprendizaje personalizados que reflejan las contribuciones variables en cada paso temporal; (2) los pasos posteriores de eliminación de ruido muestran una degradación inesperada de la percepción, destacando la sensibilidad a los cambios en la distribución de entrenamiento-eliminación de ruido, abordada por nuestra ampliación de datos adaptada a la difusión; y (3) los procesos generativos permiten de manera única la interactividad, sirviendo como interfaces de usuario controlables adaptables a indicaciones correctivas en interacciones de múltiples rondas. Nuestras ideas mejoran significativamente los modelos de percepción basados en difusión sin cambios arquitectónicos, logrando un rendimiento de vanguardia en estimación de profundidad, segmentación de imágenes referenciales y tareas de percepción generalistas. El código está disponible en https://github.com/ziqipang/ADDP.

English

With the success of image generation, generative diffusion models are increasingly adopted for discriminative tasks, as pixel generation provides a unified perception interface. However, directly repurposing the generative denoising process for discriminative objectives reveals critical gaps rarely addressed previously. Generative models tolerate intermediate sampling errors if the final distribution remains plausible, but discriminative tasks require rigorous accuracy throughout, as evidenced in challenging multi-modal tasks like referring image segmentation. Motivated by this gap, we analyze and enhance alignment between generative diffusion processes and perception tasks, focusing on how perception quality evolves during denoising. We find: (1) earlier denoising steps contribute disproportionately to perception quality, prompting us to propose tailored learning objectives reflecting varying timestep contributions; (2) later denoising steps show unexpected perception degradation, highlighting sensitivity to training-denoising distribution shifts, addressed by our diffusion-tailored data augmentation; and (3) generative processes uniquely enable interactivity, serving as controllable user interfaces adaptable to correctional prompts in multi-round interactions. Our insights significantly improve diffusion-based perception models without architectural changes, achieving state-of-the-art performance on depth estimation, referring image segmentation, and generalist perception tasks. Code available at https://github.com/ziqipang/ADDP.

Alinear la generación de desruido con objetivos discriminativos libera el potencial de la difusión para la percepción visual.

Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception

Resumen

Support