ChatPaper.aiChatPaper

Eine Diffusion, um sie alle zu erzeugen

One Diffusion to Generate Them All

November 25, 2024
Autoren: Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
cs.AI

Zusammenfassung

Wir stellen OneDiffusion vor, ein vielseitiges, groß angelegtes Diffusionsmodell, das nahtlos bidirektionale Bildsynthese und -verständnis über verschiedene Aufgaben hinweg unterstützt. Es ermöglicht bedingte Generierung aus Eingaben wie Text, Tiefe, Pose, Layout und semantischen Karten und bewältigt auch Aufgaben wie Bildentwirren, Hochskalieren und umgekehrte Prozesse wie Tiefenschätzung und Segmentierung. Darüber hinaus ermöglicht OneDiffusion die Generierung aus mehreren Ansichten, die Schätzung der Kameraposition und die sofortige Personalisierung unter Verwendung sequenzieller Bildinputs. Unser Modell verfolgt einen einfachen, aber effektiven Ansatz, indem es alle Aufgaben als Bildsequenzen mit unterschiedlichen Rauschskalen während des Trainings behandelt, was es ermöglicht, dass jedes Bild als bedingendes Bild zur Inferenzzeit fungiert. Unser einheitlicher Trainingsrahmen eliminiert die Notwendigkeit spezialisierter Architekturen, unterstützt skalierbares Multi-Task-Training und passt sich reibungslos an jede Auflösung an, was sowohl die Verallgemeinerung als auch die Skalierbarkeit verbessert. Experimentelle Ergebnisse zeigen eine wettbewerbsfähige Leistung über Aufgaben hinweg sowohl in der Generierung als auch in der Vorhersage, wie z.B. Text-zu-Bild, Multiview-Generierung, ID-Erhaltung, Tiefenschätzung und Kamerapositionsschätzung trotz eines relativ kleinen Trainingsdatensatzes. Unser Code und Checkpoint sind frei verfügbar unter https://github.com/lehduong/OneDiffusion
English
We introduce OneDiffusion, a versatile, large-scale diffusion model that seamlessly supports bidirectional image synthesis and understanding across diverse tasks. It enables conditional generation from inputs such as text, depth, pose, layout, and semantic maps, while also handling tasks like image deblurring, upscaling, and reverse processes such as depth estimation and segmentation. Additionally, OneDiffusion allows for multi-view generation, camera pose estimation, and instant personalization using sequential image inputs. Our model takes a straightforward yet effective approach by treating all tasks as frame sequences with varying noise scales during training, allowing any frame to act as a conditioning image at inference time. Our unified training framework removes the need for specialized architectures, supports scalable multi-task training, and adapts smoothly to any resolution, enhancing both generalization and scalability. Experimental results demonstrate competitive performance across tasks in both generation and prediction such as text-to-image, multiview generation, ID preservation, depth estimation and camera pose estimation despite relatively small training dataset. Our code and checkpoint are freely available at https://github.com/lehduong/OneDiffusion

Summary

AI-Generated Summary

PDF312November 26, 2024