Una Difusión para Generarlos a Todos
One Diffusion to Generate Them All
November 25, 2024
Autores: Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
cs.AI
Resumen
Presentamos OneDiffusion, un modelo de difusión versátil a gran escala que admite de manera fluida la síntesis bidireccional de imágenes y la comprensión en diversas tareas. Permite la generación condicional a partir de entradas como texto, profundidad, pose, diseño y mapas semánticos, al tiempo que aborda tareas como el desenfoque de imágenes, aumento de resolución y procesos inversos como la estimación de profundidad y segmentación de imágenes. Además, OneDiffusion permite la generación de múltiples vistas, estimación de la pose de la cámara y personalización instantánea utilizando entradas de imágenes secuenciales. Nuestro modelo adopta un enfoque sencillo pero efectivo al tratar todas las tareas como secuencias de fotogramas con diferentes escalas de ruido durante el entrenamiento, lo que permite que cualquier fotograma actúe como imagen condicionante en el momento de la inferencia. Nuestro marco unificado de entrenamiento elimina la necesidad de arquitecturas especializadas, admite un entrenamiento multi-tarea escalable y se adapta sin problemas a cualquier resolución, mejorando tanto la generalización como la escalabilidad. Los resultados experimentales demuestran un rendimiento competitivo en tareas de generación y predicción como texto a imagen, generación multivista, preservación de identificación, estimación de profundidad y estimación de la pose de la cámara a pesar de un conjunto de datos de entrenamiento relativamente pequeño. Nuestro código y punto de control están disponibles de forma gratuita en https://github.com/lehduong/OneDiffusion
English
We introduce OneDiffusion, a versatile, large-scale diffusion model that
seamlessly supports bidirectional image synthesis and understanding across
diverse tasks. It enables conditional generation from inputs such as text,
depth, pose, layout, and semantic maps, while also handling tasks like image
deblurring, upscaling, and reverse processes such as depth estimation and
segmentation. Additionally, OneDiffusion allows for multi-view generation,
camera pose estimation, and instant personalization using sequential image
inputs. Our model takes a straightforward yet effective approach by treating
all tasks as frame sequences with varying noise scales during training,
allowing any frame to act as a conditioning image at inference time. Our
unified training framework removes the need for specialized architectures,
supports scalable multi-task training, and adapts smoothly to any resolution,
enhancing both generalization and scalability. Experimental results demonstrate
competitive performance across tasks in both generation and prediction such as
text-to-image, multiview generation, ID preservation, depth estimation and
camera pose estimation despite relatively small training dataset. Our code and
checkpoint are freely available at https://github.com/lehduong/OneDiffusionSummary
AI-Generated Summary