Phidias: Een generatief model voor het creëren van 3D-inhoud uit tekst, afbeelding en 3D-omstandigheden met referentie-verrijkte diffusie.
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion
September 17, 2024
Auteurs: Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau
cs.AI
Samenvatting
Bij 3D-modellering gebruiken ontwerpers vaak een bestaand 3D-model als referentie om nieuwe modellen te maken. Deze praktijk heeft geleid tot de ontwikkeling van Phidias, een nieuw generatief model dat diffusie gebruikt voor referentie-verrijkte 3D-generatie. Met ons methode wordt, op basis van een afbeelding, een opgehaald of door de gebruiker verstrekt 3D-referentiemodel ingezet om het generatieproces te sturen, waardoor de generatiekwaliteit, generalisatievermogen en controleerbaarheid worden verbeterd. Ons model integreert drie kerncomponenten: 1) meta-ControlNet dat dynamisch de conditioneringsterkte moduleert, 2) dynamische referentierouting die de misalignering tussen de invoerafbeelding en 3D-referentie vermindert, en 3) zelfreferentieverrijkingen die zelf-supervised training mogelijk maken met een progressief curriculum. Gezamenlijk resulteren deze ontwerpen in een duidelijke verbetering ten opzichte van bestaande methoden. Phidias legt een eenduidig kader vast voor 3D-generatie met behulp van tekst, afbeelding en 3D-condities met veelzijdige toepassingen.
English
In 3D modeling, designers often use an existing 3D model as a reference to
create new ones. This practice has inspired the development of Phidias, a novel
generative model that uses diffusion for reference-augmented 3D generation.
Given an image, our method leverages a retrieved or user-provided 3D reference
model to guide the generation process, thereby enhancing the generation
quality, generalization ability, and controllability. Our model integrates
three key components: 1) meta-ControlNet that dynamically modulates the
conditioning strength, 2) dynamic reference routing that mitigates misalignment
between the input image and 3D reference, and 3) self-reference augmentations
that enable self-supervised training with a progressive curriculum.
Collectively, these designs result in a clear improvement over existing
methods. Phidias establishes a unified framework for 3D generation using text,
image, and 3D conditions with versatile applications.Summary
AI-Generated Summary