Generieke 3D Diffusie-adapter met Gecontroleerde Multi-view Bewerking
Generic 3D Diffusion Adapter Using Controlled Multi-View Editing
March 18, 2024
Auteurs: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI
Samenvatting
Open-domain 3D-objectsynthese loopt achter op beeld-synthese vanwege beperkte data en hogere computationele complexiteit. Om deze kloof te overbruggen, hebben recente werken multi-view diffusie onderzocht, maar schieten vaak tekort in 3D-consistentie, visuele kwaliteit of efficiëntie. Dit artikel stelt MVEdit voor, dat functioneert als een 3D-tegenhanger van SDEdit, waarbij ancestrale sampling wordt gebruikt om multi-view beelden gezamenlijk te denoisen en hoogwaardige textuur-meshes te produceren. Gebaseerd op kant-en-klare 2D-diffusiemodellen, bereikt MVEdit 3D-consistentie via een trainingsvrije 3D-adapter, die de 2D-beelden van de laatste tijdstap omzet in een coherente 3D-representatie, en vervolgens de 2D-beelden van het volgende tijdstap conditioneert met behulp van gerenderde views, zonder in te leveren op visuele kwaliteit. Met een inferentietijd van slechts 2-5 minuten bereikt dit framework een betere balans tussen kwaliteit en snelheid dan score-distillatie. MVEdit is zeer veelzijdig en uitbreidbaar, met een breed scala aan toepassingen, waaronder tekst/beeld-naar-3D-generatie, 3D-naar-3D-bewerking en hoogwaardige textuur-synthese. Evaluaties tonen met name state-of-the-art prestaties aan in zowel beeld-naar-3D als tekstgeleide textuur-generatietaken. Daarnaast introduceren we een methode voor het fine-tunen van 2D-latente diffusiemodellen op kleine 3D-datasets met beperkte middelen, waardoor snelle lage-resolutie tekst-naar-3D-initialisatie mogelijk wordt.
English
Open-domain 3D object synthesis has been lagging behind image synthesis due
to limited data and higher computational complexity. To bridge this gap, recent
works have investigated multi-view diffusion but often fall short in either 3D
consistency, visual quality, or efficiency. This paper proposes MVEdit, which
functions as a 3D counterpart of SDEdit, employing ancestral sampling to
jointly denoise multi-view images and output high-quality textured meshes.
Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency
through a training-free 3D Adapter, which lifts the 2D views of the last
timestep into a coherent 3D representation, then conditions the 2D views of the
next timestep using rendered views, without uncompromising visual quality. With
an inference time of only 2-5 minutes, this framework achieves better trade-off
between quality and speed than score distillation. MVEdit is highly versatile
and extendable, with a wide range of applications including text/image-to-3D
generation, 3D-to-3D editing, and high-quality texture synthesis. In
particular, evaluations demonstrate state-of-the-art performance in both
image-to-3D and text-guided texture generation tasks. Additionally, we
introduce a method for fine-tuning 2D latent diffusion models on small 3D
datasets with limited resources, enabling fast low-resolution text-to-3D
initialization.