Propriedades de Escalonamento de Modelos de Difusão para Tarefas Perceptuais
Scaling Properties of Diffusion Models for Perceptual Tasks
November 12, 2024
Autores: Rahul Ravishankar, Zeeshan Patel, Jathushan Rajasegaran, Jitendra Malik
cs.AI
Resumo
Neste artigo, argumentamos que a computação iterativa com modelos de difusão oferece um paradigma poderoso não apenas para geração, mas também para tarefas de percepção visual. Unificamos tarefas como estimativa de profundidade, fluxo óptico e segmentação sob a tradução de imagem para imagem, e mostramos como os modelos de difusão se beneficiam da escalabilidade do treinamento e da computação em tempo de teste para essas tarefas de percepção. Através de uma análise cuidadosa desses comportamentos de escalonamento, apresentamos várias técnicas para treinar eficientemente modelos de difusão para tarefas de percepção visual. Nossos modelos alcançam desempenho melhorado ou comparável aos métodos de ponta usando significativamente menos dados e computação. Para utilizar nosso código e modelos, consulte https://scaling-diffusion-perception.github.io.
English
In this paper, we argue that iterative computation with diffusion models
offers a powerful paradigm for not only generation but also visual perception
tasks. We unify tasks such as depth estimation, optical flow, and segmentation
under image-to-image translation, and show how diffusion models benefit from
scaling training and test-time compute for these perception tasks. Through a
careful analysis of these scaling behaviors, we present various techniques to
efficiently train diffusion models for visual perception tasks. Our models
achieve improved or comparable performance to state-of-the-art methods using
significantly less data and compute. To use our code and models, see
https://scaling-diffusion-perception.github.io .