ChatPaper.aiChatPaper

ViewDiff: 3D-konsistente Bildgenerierung mit Text-zu-Bild-Modellen

ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models

March 4, 2024
Autoren: Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner
cs.AI

Zusammenfassung

Die Generierung von 3D-Assets erhält derzeit große Aufmerksamkeit, inspiriert durch die jüngsten Erfolge bei der textgesteuerten Erstellung von 2D-Inhalten. Bestehende Text-zu-3D-Methoden verwenden vortrainierte Text-zu-Bild-Diffusionsmodelle in einem Optimierungsproblem oder feintunen sie an synthetischen Daten, was oft zu nicht fotorealistischen 3D-Objekten ohne Hintergründe führt. In diesem Artikel präsentieren wir eine Methode, die vortrainierte Text-zu-Bild-Modelle als Prior nutzt und lernt, Multi-View-Bilder in einem einzigen Denoising-Prozess aus realen Daten zu generieren. Konkret schlagen wir vor, 3D-Volumen-Rendering und Cross-Frame-Attention-Schichten in jeden Block des bestehenden U-Net-Netzwerks des Text-zu-Bild-Modells zu integrieren. Darüber hinaus entwerfen wir eine autoregressive Generierung, die konsistentere 3D-Bilder aus jedem Blickwinkel rendert. Wir trainieren unser Modell an realen Datensätzen von Objekten und demonstrieren seine Fähigkeit, Instanzen mit einer Vielzahl von hochwertigen Formen und Texturen in authentischen Umgebungen zu generieren. Im Vergleich zu bestehenden Methoden sind die von unserer Methode erzeugten Ergebnisse konsistent und weisen eine bessere visuelle Qualität auf (-30 % FID, -37 % KID).
English
3D asset generation is getting massive amounts of attention, inspired by the recent success of text-guided 2D content creation. Existing text-to-3D methods use pretrained text-to-image diffusion models in an optimization problem or fine-tune them on synthetic data, which often results in non-photorealistic 3D objects without backgrounds. In this paper, we present a method that leverages pretrained text-to-image models as a prior, and learn to generate multi-view images in a single denoising process from real-world data. Concretely, we propose to integrate 3D volume-rendering and cross-frame-attention layers into each block of the existing U-Net network of the text-to-image model. Moreover, we design an autoregressive generation that renders more 3D-consistent images at any viewpoint. We train our model on real-world datasets of objects and showcase its capabilities to generate instances with a variety of high-quality shapes and textures in authentic surroundings. Compared to the existing methods, the results generated by our method are consistent, and have favorable visual quality (-30% FID, -37% KID).
PDF91December 15, 2024