Eine Diffusion, um sie alle zu erzeugen
One Diffusion to Generate Them All
November 25, 2024
Autoren: Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
cs.AI
Zusammenfassung
Wir stellen OneDiffusion vor, ein vielseitiges, groß angelegtes Diffusionsmodell, das nahtlos bidirektionale Bildsynthese und -verständnis über verschiedene Aufgaben hinweg unterstützt. Es ermöglicht bedingte Generierung aus Eingaben wie Text, Tiefe, Pose, Layout und semantischen Karten und bewältigt auch Aufgaben wie Bildentwirren, Hochskalieren und umgekehrte Prozesse wie Tiefenschätzung und Segmentierung. Darüber hinaus ermöglicht OneDiffusion die Generierung aus mehreren Ansichten, die Schätzung der Kameraposition und die sofortige Personalisierung unter Verwendung sequenzieller Bildinputs. Unser Modell verfolgt einen einfachen, aber effektiven Ansatz, indem es alle Aufgaben als Bildsequenzen mit unterschiedlichen Rauschskalen während des Trainings behandelt, was es ermöglicht, dass jedes Bild als bedingendes Bild zur Inferenzzeit fungiert. Unser einheitlicher Trainingsrahmen eliminiert die Notwendigkeit spezialisierter Architekturen, unterstützt skalierbares Multi-Task-Training und passt sich reibungslos an jede Auflösung an, was sowohl die Verallgemeinerung als auch die Skalierbarkeit verbessert. Experimentelle Ergebnisse zeigen eine wettbewerbsfähige Leistung über Aufgaben hinweg sowohl in der Generierung als auch in der Vorhersage, wie z.B. Text-zu-Bild, Multiview-Generierung, ID-Erhaltung, Tiefenschätzung und Kamerapositionsschätzung trotz eines relativ kleinen Trainingsdatensatzes. Unser Code und Checkpoint sind frei verfügbar unter https://github.com/lehduong/OneDiffusion
English
We introduce OneDiffusion, a versatile, large-scale diffusion model that
seamlessly supports bidirectional image synthesis and understanding across
diverse tasks. It enables conditional generation from inputs such as text,
depth, pose, layout, and semantic maps, while also handling tasks like image
deblurring, upscaling, and reverse processes such as depth estimation and
segmentation. Additionally, OneDiffusion allows for multi-view generation,
camera pose estimation, and instant personalization using sequential image
inputs. Our model takes a straightforward yet effective approach by treating
all tasks as frame sequences with varying noise scales during training,
allowing any frame to act as a conditioning image at inference time. Our
unified training framework removes the need for specialized architectures,
supports scalable multi-task training, and adapts smoothly to any resolution,
enhancing both generalization and scalability. Experimental results demonstrate
competitive performance across tasks in both generation and prediction such as
text-to-image, multiview generation, ID preservation, depth estimation and
camera pose estimation despite relatively small training dataset. Our code and
checkpoint are freely available at https://github.com/lehduong/OneDiffusionSummary
AI-Generated Summary