Propiedades de Escala de Modelos de Difusión para Tareas Perceptivas
Scaling Properties of Diffusion Models for Perceptual Tasks
November 12, 2024
Autores: Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik
cs.AI
Resumen
En este artículo, argumentamos que la computación iterativa con modelos de difusión ofrece un paradigma poderoso no solo para la generación, sino también para tareas de percepción visual. Unificamos tareas como la estimación de profundidad, el flujo óptico y la segmentación bajo la traducción de imagen a imagen, y mostramos cómo los modelos de difusión se benefician del escalado del entrenamiento y del cálculo en tiempo de prueba para estas tareas de percepción. A través de un análisis cuidadoso de estos comportamientos de escalado, presentamos diversas técnicas para entrenar de manera eficiente modelos de difusión para tareas de percepción visual. Nuestros modelos logran un rendimiento mejorado o comparable a los métodos de vanguardia utilizando significativamente menos datos y cálculos. Para utilizar nuestro código y modelos, consulte https://scaling-diffusion-perception.github.io.
English
In this paper, we argue that iterative computation with diffusion models
offers a powerful paradigm for not only generation but also visual perception
tasks. We unify tasks such as depth estimation, optical flow, and segmentation
under image-to-image translation, and show how diffusion models benefit from
scaling training and test-time compute for these perception tasks. Through a
careful analysis of these scaling behaviors, we present various techniques to
efficiently train diffusion models for visual perception tasks. Our models
achieve improved or comparable performance to state-of-the-art methods using
significantly less data and compute. To use our code and models, see
https://scaling-diffusion-perception.github.io .Summary
AI-Generated Summary