Generischer 3D-Diffusionsadapter unter Verwendung von kontrolliertem Multi-View-Editing.
Generic 3D Diffusion Adapter Using Controlled Multi-View Editing
March 18, 2024
Autoren: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI
Zusammenfassung
Die Synthese von 3D-Objekten im Open-Domain-Bereich hinkt der Bildsynthese aufgrund begrenzter Daten und höherer Rechenkomplexität hinterher. Um diese Kluft zu überbrücken, haben aktuelle Arbeiten die Multi-View-Diffusion untersucht, fallen jedoch oft in Bezug auf 3D-Konsistenz, visuelle Qualität oder Effizienz kurz. Dieses Papier schlägt MVEdit vor, das als 3D-Gegenstück zu SDEdit fungiert und die Ahnenabtastung verwendet, um gemeinsam Multi-View-Bilder zu denoisieren und hochwertige texturierte Meshes auszugeben. Basierend auf handelsüblichen 2D-Diffusionsmodellen erreicht MVEdit 3D-Konsistenz durch einen trainingsfreien 3D-Adapter, der die 2D-Ansichten des letzten Zeitschritts in eine kohärente 3D-Repräsentation überführt, dann die 2D-Ansichten des nächsten Zeitschritts unter Verwendung gerenderter Ansichten bedingt, ohne die visuelle Qualität zu beeinträchtigen. Mit einer Inferenzzeit von nur 2-5 Minuten erzielt dieses Framework einen besseren Kompromiss zwischen Qualität und Geschwindigkeit als die Score-Destillation. MVEdit ist äußerst vielseitig und erweiterbar, mit einer Vielzahl von Anwendungen, darunter die Generierung von Text-/Bild-zu-3D, 3D-zu-3D-Bearbeitung und hochwertige Textursynthese. Insbesondere zeigen Evaluationen eine Leistung auf dem neuesten Stand der Technik sowohl bei der Bild-zu-3D- als auch bei der textgesteuerten Texturerzeugung. Darüber hinaus stellen wir eine Methode zur Feinabstimmung von 2D-latenten Diffusionsmodellen auf kleinen 3D-Datensätzen mit begrenzten Ressourcen vor, die eine schnelle Initialisierung von Text-zu-3D mit niedriger Auflösung ermöglicht.
English
Open-domain 3D object synthesis has been lagging behind image synthesis due
to limited data and higher computational complexity. To bridge this gap, recent
works have investigated multi-view diffusion but often fall short in either 3D
consistency, visual quality, or efficiency. This paper proposes MVEdit, which
functions as a 3D counterpart of SDEdit, employing ancestral sampling to
jointly denoise multi-view images and output high-quality textured meshes.
Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency
through a training-free 3D Adapter, which lifts the 2D views of the last
timestep into a coherent 3D representation, then conditions the 2D views of the
next timestep using rendered views, without uncompromising visual quality. With
an inference time of only 2-5 minutes, this framework achieves better trade-off
between quality and speed than score distillation. MVEdit is highly versatile
and extendable, with a wide range of applications including text/image-to-3D
generation, 3D-to-3D editing, and high-quality texture synthesis. In
particular, evaluations demonstrate state-of-the-art performance in both
image-to-3D and text-guided texture generation tasks. Additionally, we
introduce a method for fine-tuning 2D latent diffusion models on small 3D
datasets with limited resources, enabling fast low-resolution text-to-3D
initialization.Summary
AI-Generated Summary