Uma Difusão para Gerá-los a Todos
One Diffusion to Generate Them All
November 25, 2024
Autores: Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
cs.AI
Resumo
Apresentamos o OneDiffusion, um modelo de difusão versátil em larga escala que suporta perfeitamente a síntese e compreensão bidirecional de imagens em diversas tarefas. Ele possibilita a geração condicional a partir de entradas como texto, profundidade, pose, layout e mapas semânticos, além de lidar com tarefas como desfocagem de imagens, ampliação e processos reversos como estimativa de profundidade e segmentação. Além disso, o OneDiffusion permite a geração de múltiplas visualizações, estimativa de pose da câmera e personalização instantânea usando entradas de imagens sequenciais. Nosso modelo adota uma abordagem simples, porém eficaz, tratando todas as tarefas como sequências de quadros com escalas de ruído variáveis durante o treinamento, permitindo que qualquer quadro atue como imagem condicionante no momento da inferência. Nosso framework unificado de treinamento elimina a necessidade de arquiteturas especializadas, suporta treinamento multi-tarefa escalável e se adapta facilmente a qualquer resolução, aprimorando tanto a generalização quanto a escalabilidade. Resultados experimentais demonstram desempenho competitivo em diversas tarefas, tanto em geração quanto em previsão, como texto-para-imagem, geração multivisão, preservação de identificação, estimativa de profundidade e estimativa de pose da câmera, apesar do conjunto de dados de treinamento relativamente pequeno. Nosso código e checkpoint estão disponíveis gratuitamente em https://github.com/lehduong/OneDiffusion
English
We introduce OneDiffusion, a versatile, large-scale diffusion model that
seamlessly supports bidirectional image synthesis and understanding across
diverse tasks. It enables conditional generation from inputs such as text,
depth, pose, layout, and semantic maps, while also handling tasks like image
deblurring, upscaling, and reverse processes such as depth estimation and
segmentation. Additionally, OneDiffusion allows for multi-view generation,
camera pose estimation, and instant personalization using sequential image
inputs. Our model takes a straightforward yet effective approach by treating
all tasks as frame sequences with varying noise scales during training,
allowing any frame to act as a conditioning image at inference time. Our
unified training framework removes the need for specialized architectures,
supports scalable multi-task training, and adapts smoothly to any resolution,
enhancing both generalization and scalability. Experimental results demonstrate
competitive performance across tasks in both generation and prediction such as
text-to-image, multiview generation, ID preservation, depth estimation and
camera pose estimation despite relatively small training dataset. Our code and
checkpoint are freely available at https://github.com/lehduong/OneDiffusionSummary
AI-Generated Summary