Coin3D: Geração Controlável e Interativa de Ativos 3D com Condicionamento Guiado por Proxy
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning
May 13, 2024
Autores: Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui
cs.AI
Resumo
Como seres humanos, aspiramos criar conteúdo de mídia que seja tanto livremente desejado quanto facilmente controlado. Graças ao desenvolvimento proeminente de técnicas generativas, agora podemos facilmente utilizar métodos de difusão 2D para sintetizar imagens controladas por esboços brutos ou poses humanas designadas, e até mesmo editar/regenerar progressivamente regiões locais com preenchimento mascarado. No entanto, fluxos de trabalho semelhantes em tarefas de modelagem 3D ainda não estão disponíveis devido à falta de controlabilidade e eficiência na geração 3D. Neste artigo, apresentamos uma nova estrutura de modelagem de ativos 3D controlável e interativa, denominada Coin3D. O Coin3D permite que os usuários controlem a geração 3D usando um proxy de geometria grosseira montado a partir de formas básicas, e introduz um fluxo de trabalho de geração interativa para suportar a edição contínua de partes locais enquanto fornece uma visualização responsiva de objetos 3D em poucos segundos. Para isso, desenvolvemos várias técnicas, incluindo o adaptador 3D que aplica controle volumétrico de forma grosseira ao modelo de difusão, estratégia de edição limitada por proxy para edição precisa de partes, cache de volume progressivo para suportar visualização responsiva, e volume-SDS para garantir reconstrução consistente de malhas. Experimentos extensivos de geração e edição interativa em diversos proxies de forma demonstram que nosso método alcança superior controlabilidade e flexibilidade na tarefa de geração de ativos 3D.
English
As humans, we aspire to create media content that is both freely willed and
readily controlled. Thanks to the prominent development of generative
techniques, we now can easily utilize 2D diffusion methods to synthesize images
controlled by raw sketch or designated human poses, and even progressively
edit/regenerate local regions with masked inpainting. However, similar
workflows in 3D modeling tasks are still unavailable due to the lack of
controllability and efficiency in 3D generation. In this paper, we present a
novel controllable and interactive 3D assets modeling framework, named Coin3D.
Coin3D allows users to control the 3D generation using a coarse geometry proxy
assembled from basic shapes, and introduces an interactive generation workflow
to support seamless local part editing while delivering responsive 3D object
previewing within a few seconds. To this end, we develop several techniques,
including the 3D adapter that applies volumetric coarse shape control to the
diffusion model, proxy-bounded editing strategy for precise part editing,
progressive volume cache to support responsive preview, and volume-SDS to
ensure consistent mesh reconstruction. Extensive experiments of interactive
generation and editing on diverse shape proxies demonstrate that our method
achieves superior controllability and flexibility in the 3D assets generation
task.