Une Diffusion pour les Générer Toutes
One Diffusion to Generate Them All
November 25, 2024
Auteurs: Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
cs.AI
Résumé
Nous présentons OneDiffusion, un modèle de diffusion polyvalent à grande échelle qui prend en charge de manière transparente la synthèse et la compréhension d'images bidirectionnelles à travers diverses tâches. Il permet la génération conditionnelle à partir d'entrées telles que du texte, de la profondeur, de la pose, de la mise en page et des cartes sémantiques, tout en traitant également des tâches telles que le défloutage d'images, l'agrandissement, et des processus inverses tels que l'estimation de profondeur et la segmentation d'images. De plus, OneDiffusion permet la génération multi-vues, l'estimation de la pose de la caméra, et la personnalisation instantanée en utilisant des entrées d'images séquentielles. Notre modèle adopte une approche simple mais efficace en traitant toutes les tâches comme des séquences d'images avec des échelles de bruit variables pendant l'entraînement, permettant à n'importe quelle image de servir d'image conditionnelle au moment de l'inférence. Notre cadre d'entraînement unifié élimine le besoin d'architectures spécialisées, prend en charge l'entraînement multi-tâches évolutif, et s'adapte en douceur à n'importe quelle résolution, améliorant à la fois la généralisation et la scalabilité. Les résultats expérimentaux démontrent des performances compétitives à travers les tâches en génération et prédiction telles que le texte vers l'image, la génération multi-vues, la préservation de l'identifiant, l'estimation de profondeur et l'estimation de la pose de la caméra malgré un ensemble de données d'entraînement relativement petit. Notre code et notre point de contrôle sont disponibles gratuitement sur https://github.com/lehduong/OneDiffusion
English
We introduce OneDiffusion, a versatile, large-scale diffusion model that
seamlessly supports bidirectional image synthesis and understanding across
diverse tasks. It enables conditional generation from inputs such as text,
depth, pose, layout, and semantic maps, while also handling tasks like image
deblurring, upscaling, and reverse processes such as depth estimation and
segmentation. Additionally, OneDiffusion allows for multi-view generation,
camera pose estimation, and instant personalization using sequential image
inputs. Our model takes a straightforward yet effective approach by treating
all tasks as frame sequences with varying noise scales during training,
allowing any frame to act as a conditioning image at inference time. Our
unified training framework removes the need for specialized architectures,
supports scalable multi-task training, and adapts smoothly to any resolution,
enhancing both generalization and scalability. Experimental results demonstrate
competitive performance across tasks in both generation and prediction such as
text-to-image, multiview generation, ID preservation, depth estimation and
camera pose estimation despite relatively small training dataset. Our code and
checkpoint are freely available at https://github.com/lehduong/OneDiffusionSummary
AI-Generated Summary