ChatPaper.aiChatPaper

ViewDiff: 3D-consistente beeldgeneratie met tekst-naar-beeldmodellen

ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models

March 4, 2024
Auteurs: Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner
cs.AI

Samenvatting

3D-assetgeneratie krijgt momenteel enorm veel aandacht, geïnspireerd door het recente succes van tekstgestuurde 2D-contentcreatie. Bestaande tekst-naar-3D-methoden gebruiken vooraf getrainde tekst-naar-beeld-diffusiemodellen in een optimalisatieprobleem of fine-tunen ze op synthetische data, wat vaak resulteert in niet-fotorealistische 3D-objecten zonder achtergronden. In dit artikel presenteren we een methode die vooraf getrainde tekst-naar-beeldmodellen gebruikt als een prior, en leert om multi-view-beelden te genereren in een enkel denoisingsproces op basis van real-world data. Concreet stellen we voor om 3D-volume-rendering en cross-frame-attention-lagen te integreren in elk blok van het bestaande U-Net-netwerk van het tekst-naar-beeldmodel. Bovendien ontwerpen we een autoregressieve generatie die meer 3D-consistente beelden weergeeft vanuit elk gezichtspunt. We trainen ons model op real-world datasets van objecten en demonstreren de mogelijkheden om instanties te genereren met een verscheidenheid aan hoogwaardige vormen en texturen in authentieke omgevingen. Vergeleken met bestaande methoden zijn de resultaten gegenereerd door onze methode consistent en hebben ze een gunstige visuele kwaliteit (-30% FID, -37% KID).
English
3D asset generation is getting massive amounts of attention, inspired by the recent success of text-guided 2D content creation. Existing text-to-3D methods use pretrained text-to-image diffusion models in an optimization problem or fine-tune them on synthetic data, which often results in non-photorealistic 3D objects without backgrounds. In this paper, we present a method that leverages pretrained text-to-image models as a prior, and learn to generate multi-view images in a single denoising process from real-world data. Concretely, we propose to integrate 3D volume-rendering and cross-frame-attention layers into each block of the existing U-Net network of the text-to-image model. Moreover, we design an autoregressive generation that renders more 3D-consistent images at any viewpoint. We train our model on real-world datasets of objects and showcase its capabilities to generate instances with a variety of high-quality shapes and textures in authentic surroundings. Compared to the existing methods, the results generated by our method are consistent, and have favorable visual quality (-30% FID, -37% KID).
PDF91December 15, 2024