Шкалирующие свойства моделей диффузии для восприятия задач.
Scaling Properties of Diffusion Models for Perceptual Tasks
November 12, 2024
Авторы: Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik
cs.AI
Аннотация
В данной статье мы утверждаем, что итеративное вычисление с моделями диффузии предлагает мощный парадигму не только для генерации, но и для задач визуального восприятия. Мы объединяем задачи, такие как оценка глубины, оптический поток и сегментация, под понятием перевода изображения в изображение и показываем, как модели диффузии выигрывают от масштабирования обучения и вычислений на этапе тестирования для этих задач восприятия. Через тщательный анализ этих поведенческих характеристик мы представляем различные техники для эффективного обучения моделей диффузии для задач визуального восприятия. Наши модели достигают улучшенной или сравнимой производительности по сравнению с передовыми методами, используя значительно меньше данных и вычислений. Чтобы использовать наш код и модели, посетите https://scaling-diffusion-perception.github.io.
English
In this paper, we argue that iterative computation with diffusion models
offers a powerful paradigm for not only generation but also visual perception
tasks. We unify tasks such as depth estimation, optical flow, and segmentation
under image-to-image translation, and show how diffusion models benefit from
scaling training and test-time compute for these perception tasks. Through a
careful analysis of these scaling behaviors, we present various techniques to
efficiently train diffusion models for visual perception tasks. Our models
achieve improved or comparable performance to state-of-the-art methods using
significantly less data and compute. To use our code and models, see
https://scaling-diffusion-perception.github.io .Summary
AI-Generated Summary