Phidias: Um Modelo Generativo para Criar Conteúdo 3D a partir de Texto, Imagem e Condições 3D com Difusão Aumentada por Referência
Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion
September 17, 2024
Autores: Zhenwei Wang, Tengfei Wang, Zexin He, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau
cs.AI
Resumo
Na modelagem 3D, os designers frequentemente utilizam um modelo 3D existente como referência para criar novos. Essa prática inspirou o desenvolvimento do Phidias, um modelo generativo inovador que utiliza difusão para geração 3D com referência aumentada. Dado uma imagem, nosso método aproveita um modelo 3D recuperado ou fornecido pelo usuário para orientar o processo de geração, melhorando assim a qualidade da geração, capacidade de generalização e controlabilidade. Nosso modelo integra três componentes-chave: 1) meta-ControlNet que modula dinamicamente a força de condicionamento, 2) roteamento de referência dinâmica que mitiga o desalinhamento entre a imagem de entrada e a referência 3D, e 3) augmentações de auto-referência que possibilitam treinamento auto-supervisionado com um currículo progressivo. Coletivamente, esses projetos resultam em uma clara melhoria em relação aos métodos existentes. O Phidias estabelece um framework unificado para geração 3D utilizando texto, imagem e condições 3D com aplicações versáteis.
English
In 3D modeling, designers often use an existing 3D model as a reference to
create new ones. This practice has inspired the development of Phidias, a novel
generative model that uses diffusion for reference-augmented 3D generation.
Given an image, our method leverages a retrieved or user-provided 3D reference
model to guide the generation process, thereby enhancing the generation
quality, generalization ability, and controllability. Our model integrates
three key components: 1) meta-ControlNet that dynamically modulates the
conditioning strength, 2) dynamic reference routing that mitigates misalignment
between the input image and 3D reference, and 3) self-reference augmentations
that enable self-supervised training with a progressive curriculum.
Collectively, these designs result in a clear improvement over existing
methods. Phidias establishes a unified framework for 3D generation using text,
image, and 3D conditions with versatile applications.Summary
AI-Generated Summary