Phidias: Um Modelo Generativo para Criar Conteúdo 3D a partir de Texto, Imagem e Condições 3D com Difusão Aumentada por Referência

Resumo

Na modelagem 3D, os designers frequentemente utilizam um modelo 3D existente como referência para criar novos. Essa prática inspirou o desenvolvimento do Phidias, um modelo generativo inovador que utiliza difusão para geração 3D com referência aumentada. Dado uma imagem, nosso método aproveita um modelo 3D recuperado ou fornecido pelo usuário para orientar o processo de geração, melhorando assim a qualidade da geração, capacidade de generalização e controlabilidade. Nosso modelo integra três componentes-chave: 1) meta-ControlNet que modula dinamicamente a força de condicionamento, 2) roteamento de referência dinâmica que mitiga o desalinhamento entre a imagem de entrada e a referência 3D, e 3) augmentações de auto-referência que possibilitam treinamento auto-supervisionado com um currículo progressivo. Coletivamente, esses projetos resultam em uma clara melhoria em relação aos métodos existentes. O Phidias estabelece um framework unificado para geração 3D utilizando texto, imagem e condições 3D com aplicações versáteis.

English

In 3D modeling, designers often use an existing 3D model as a reference to create new ones. This practice has inspired the development of Phidias, a novel generative model that uses diffusion for reference-augmented 3D generation. Given an image, our method leverages a retrieved or user-provided 3D reference model to guide the generation process, thereby enhancing the generation quality, generalization ability, and controllability. Our model integrates three key components: 1) meta-ControlNet that dynamically modulates the conditioning strength, 2) dynamic reference routing that mitigates misalignment between the input image and 3D reference, and 3) self-reference augmentations that enable self-supervised training with a progressive curriculum. Collectively, these designs result in a clear improvement over existing methods. Phidias establishes a unified framework for 3D generation using text, image, and 3D conditions with versatile applications.

Phidias: Um Modelo Generativo para Criar Conteúdo 3D a partir de Texto, Imagem e Condições 3D com Difusão Aumentada por Referência

Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Resumo

Support