Совмещение генеративного шумоподавления с дискриминативными задачами раскрывает потенциал диффузионных моделей для визуального восприятия
Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception
April 15, 2025
Авторы: Ziqi Pang, Xin Xu, Yu-Xiong Wang
cs.AI
Аннотация
С успехом в генерации изображений, генеративные диффузионные модели всё чаще применяются для дискриминативных задач, поскольку генерация пикселей предоставляет унифицированный интерфейс восприятия. Однако прямое использование генеративного процесса удаления шума для дискриминативных целей выявляет критические пробелы, которые ранее редко учитывались. Генеративные модели допускают промежуточные ошибки выборки, если итоговое распределение остаётся правдоподобным, но дискриминативные задачи требуют строгой точности на всех этапах, что особенно заметно в сложных многомодальных задачах, таких как сегментация изображений по ссылкам. Вдохновлённые этим пробелом, мы анализируем и улучшаем согласованность между генеративными диффузионными процессами и задачами восприятия, уделяя особое внимание тому, как качество восприятия изменяется в процессе удаления шума. Мы обнаруживаем: (1) ранние этапы удаления шума вносят непропорционально большой вклад в качество восприятия, что побуждает нас предложить специализированные целевые функции обучения, отражающие различный вклад временных шагов; (2) поздние этапы удаления шума демонстрируют неожиданное ухудшение восприятия, подчёркивая чувствительность к сдвигам распределения между обучением и удалением шума, что решается нашей адаптированной для диффузии аугментацией данных; и (3) генеративные процессы уникальным образом обеспечивают интерактивность, выступая в качестве управляемых пользовательских интерфейсов, адаптируемых к корректирующим запросам в многораундовых взаимодействиях. Наши идеи значительно улучшают модели восприятия на основе диффузии без изменений архитектуры, достигая передовых результатов в задачах оценки глубины, сегментации изображений по ссылкам и общих задачах восприятия. Код доступен по адресу https://github.com/ziqipang/ADDP.
English
With the success of image generation, generative diffusion models are
increasingly adopted for discriminative tasks, as pixel generation provides a
unified perception interface. However, directly repurposing the generative
denoising process for discriminative objectives reveals critical gaps rarely
addressed previously. Generative models tolerate intermediate sampling errors
if the final distribution remains plausible, but discriminative tasks require
rigorous accuracy throughout, as evidenced in challenging multi-modal tasks
like referring image segmentation. Motivated by this gap, we analyze and
enhance alignment between generative diffusion processes and perception tasks,
focusing on how perception quality evolves during denoising. We find: (1)
earlier denoising steps contribute disproportionately to perception quality,
prompting us to propose tailored learning objectives reflecting varying
timestep contributions; (2) later denoising steps show unexpected perception
degradation, highlighting sensitivity to training-denoising distribution
shifts, addressed by our diffusion-tailored data augmentation; and (3)
generative processes uniquely enable interactivity, serving as controllable
user interfaces adaptable to correctional prompts in multi-round interactions.
Our insights significantly improve diffusion-based perception models without
architectural changes, achieving state-of-the-art performance on depth
estimation, referring image segmentation, and generalist perception tasks. Code
available at https://github.com/ziqipang/ADDP.Summary
AI-Generated Summary