Phidias : Un modèle génératif pour créer du contenu 3D à partir de texte, d'image et de conditions 3D avec diffusion augmentée par référence
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion
September 17, 2024
Auteurs: Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau
cs.AI
Résumé
Dans la modélisation 3D, les concepteurs utilisent souvent un modèle 3D existant comme référence pour créer de nouveaux modèles. Cette pratique a inspiré le développement de Phidias, un nouveau modèle génératif qui utilise la diffusion pour la génération 3D augmentée par référence. En partant d'une image, notre méthode exploite un modèle de référence 3D récupéré ou fourni par l'utilisateur pour guider le processus de génération, améliorant ainsi la qualité, la capacité de généralisation et la contrôlabilité de la génération. Notre modèle intègre trois composants clés : 1) Meta-ControlNet qui module dynamiquement la force de conditionnement, 2) un routage de référence dynamique qui atténue les désalignements entre l'image d'entrée et la référence 3D, et 3) des augmentations auto-référentielles qui permettent un entraînement auto-supervisé avec un programme d'études progressif. Dans l'ensemble, ces conceptions se traduisent par une nette amélioration par rapport aux méthodes existantes. Phidias établit un cadre unifié pour la génération 3D en utilisant du texte, des images et des conditions 3D avec des applications polyvalentes.
English
In 3D modeling, designers often use an existing 3D model as a reference to
create new ones. This practice has inspired the development of Phidias, a novel
generative model that uses diffusion for reference-augmented 3D generation.
Given an image, our method leverages a retrieved or user-provided 3D reference
model to guide the generation process, thereby enhancing the generation
quality, generalization ability, and controllability. Our model integrates
three key components: 1) meta-ControlNet that dynamically modulates the
conditioning strength, 2) dynamic reference routing that mitigates misalignment
between the input image and 3D reference, and 3) self-reference augmentations
that enable self-supervised training with a progressive curriculum.
Collectively, these designs result in a clear improvement over existing
methods. Phidias establishes a unified framework for 3D generation using text,
image, and 3D conditions with versatile applications.Summary
AI-Generated Summary