Coin3D: Generación Controlable e Interactiva de Activos 3D con Condicionamiento Guiado por Proxies
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning
May 13, 2024
Autores: Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui
cs.AI
Resumen
Como humanos, aspiramos a crear contenido multimedia que sea tanto libremente deseado como fácilmente controlable. Gracias al destacado desarrollo de técnicas generativas, ahora podemos utilizar fácilmente métodos de difusión 2D para sintetizar imágenes controladas por bocetos en bruto o poses humanas designadas, e incluso editar/regenerar progresivamente regiones locales con enmascaramiento de inpainting. Sin embargo, flujos de trabajo similares en tareas de modelado 3D aún no están disponibles debido a la falta de controlabilidad y eficiencia en la generación 3D. En este artículo, presentamos un novedoso marco de modelado de activos 3D controlable e interactivo, denominado Coin3D. Coin3D permite a los usuarios controlar la generación 3D utilizando un proxy de geometría aproximada ensamblado a partir de formas básicas, e introduce un flujo de trabajo de generación interactiva para soportar la edición local de partes de manera fluida, mientras ofrece una vista previa de objetos 3D en pocos segundos. Para ello, desarrollamos varias técnicas, incluyendo el adaptador 3D que aplica control volumétrico de formas aproximadas al modelo de difusión, la estrategia de edición limitada por proxy para la edición precisa de partes, la caché de volumen progresiva para soportar la vista previa rápida, y el volumen-SDS para garantizar una reconstrucción de malla consistente. Experimentos extensivos de generación y edición interactiva en diversos proxies de formas demuestran que nuestro método logra una controlabilidad y flexibilidad superiores en la tarea de generación de activos 3D.
English
As humans, we aspire to create media content that is both freely willed and
readily controlled. Thanks to the prominent development of generative
techniques, we now can easily utilize 2D diffusion methods to synthesize images
controlled by raw sketch or designated human poses, and even progressively
edit/regenerate local regions with masked inpainting. However, similar
workflows in 3D modeling tasks are still unavailable due to the lack of
controllability and efficiency in 3D generation. In this paper, we present a
novel controllable and interactive 3D assets modeling framework, named Coin3D.
Coin3D allows users to control the 3D generation using a coarse geometry proxy
assembled from basic shapes, and introduces an interactive generation workflow
to support seamless local part editing while delivering responsive 3D object
previewing within a few seconds. To this end, we develop several techniques,
including the 3D adapter that applies volumetric coarse shape control to the
diffusion model, proxy-bounded editing strategy for precise part editing,
progressive volume cache to support responsive preview, and volume-SDS to
ensure consistent mesh reconstruction. Extensive experiments of interactive
generation and editing on diverse shape proxies demonstrate that our method
achieves superior controllability and flexibility in the 3D assets generation
task.Summary
AI-Generated Summary