ChatPaper.aiChatPaper

IM-3D: Iterative Multiview-Diffusion und Rekonstruktion für hochwertige 3D-Generierung

IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality 3D Generation

February 13, 2024
Autoren: Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, Natalia Neverova, Andrea Vedaldi, Oran Gafni, Filippos Kokkinos
cs.AI

Zusammenfassung

Die meisten Text-zu-3D-Generatoren basieren auf vorgefertigten Text-zu-Bild-Modellen, die mit Milliarden von Bildern trainiert wurden. Sie verwenden Varianten von Score Distillation Sampling (SDS), das langsam, etwas instabil und anfällig für Artefakte ist. Eine Abhilfe besteht darin, den 2D-Generator feinzutunen, um ihn multi-view-fähig zu machen, was die Destillation unterstützen oder mit Rekonstruktionsnetzwerken kombiniert werden kann, um direkt 3D-Objekte zu erzeugen. In diesem Papier untersuchen wir den Designraum von Text-zu-3D-Modellen weiter. Wir verbessern die Multi-View-Generierung erheblich, indem wir Video- statt Bildgeneratoren verwenden. In Kombination mit einem 3D-Rekonstruktionsalgorithmus, der durch die Verwendung von Gaussian Splatting einen robusten bildbasierten Verlust optimieren kann, erzeugen wir direkt hochwertige 3D-Ausgaben aus den generierten Ansichten. Unsere neue Methode, IM-3D, reduziert die Anzahl der Auswertungen des 2D-Generator-Netzwerks um das 10- bis 100-fache, was zu einer wesentlich effizienteren Pipeline, besserer Qualität, weniger geometrischen Inkonsistenzen und einer höheren Ausbeute an nutzbaren 3D-Assets führt.
English
Most text-to-3D generators build upon off-the-shelf text-to-image models trained on billions of images. They use variants of Score Distillation Sampling (SDS), which is slow, somewhat unstable, and prone to artifacts. A mitigation is to fine-tune the 2D generator to be multi-view aware, which can help distillation or can be combined with reconstruction networks to output 3D objects directly. In this paper, we further explore the design space of text-to-3D models. We significantly improve multi-view generation by considering video instead of image generators. Combined with a 3D reconstruction algorithm which, by using Gaussian splatting, can optimize a robust image-based loss, we directly produce high-quality 3D outputs from the generated views. Our new method, IM-3D, reduces the number of evaluations of the 2D generator network 10-100x, resulting in a much more efficient pipeline, better quality, fewer geometric inconsistencies, and higher yield of usable 3D assets.
PDF141December 15, 2024