Coin3D: 프록시 기반 조건화를 통한 제어 가능하고 상호작용적인 3D 자산 생성
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning
May 13, 2024
저자: Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui
cs.AI
초록
인간으로서 우리는 자유롭게 의지할 수 있고 쉽게 제어할 수 있는 미디어 콘텐츠를 창조하고자 합니다. 생성 기술의 눈부신 발전 덕분에, 이제 우리는 원시 스케치나 지정된 인간 포즈로 제어되는 이미지를 합성하기 위해 2D 확산 방법을 쉽게 활용할 수 있으며, 마스크 인페인팅을 통해 지역적 영역을 점진적으로 편집하거나 재생성할 수도 있습니다. 그러나 3D 모델링 작업에서 유사한 워크플로우는 여전히 사용할 수 없는데, 이는 3D 생성에서의 제어 가능성과 효율성 부족 때문입니다. 본 논문에서는 Coin3D라는 새로운 제어 가능하고 상호작용적인 3D 자산 모델링 프레임워크를 제시합니다. Coin3D는 사용자가 기본 도형으로 조립된 거친 기하학적 프록시를 사용하여 3D 생성을 제어할 수 있도록 하며, 상호작용적인 생성 워크플로우를 도입하여 몇 초 내에 반응적인 3D 객체 미리보기를 제공하면서도 원활한 지역적 부분 편집을 지원합니다. 이를 위해 우리는 확산 모델에 체적적 거친 형태 제어를 적용하는 3D 어댑터, 정확한 부분 편집을 위한 프록시 경계 편집 전략, 반응형 미리보기를 지원하는 점진적 체적 캐시, 그리고 일관된 메쉬 재구성을 보장하는 volume-SDS 등 여러 기술을 개발했습니다. 다양한 형태 프록시에 대한 상호작용적 생성 및 편집 실험을 통해 우리의 방법이 3D 자산 생성 작업에서 우수한 제어 가능성과 유연성을 달성함을 입증했습니다.
English
As humans, we aspire to create media content that is both freely willed and
readily controlled. Thanks to the prominent development of generative
techniques, we now can easily utilize 2D diffusion methods to synthesize images
controlled by raw sketch or designated human poses, and even progressively
edit/regenerate local regions with masked inpainting. However, similar
workflows in 3D modeling tasks are still unavailable due to the lack of
controllability and efficiency in 3D generation. In this paper, we present a
novel controllable and interactive 3D assets modeling framework, named Coin3D.
Coin3D allows users to control the 3D generation using a coarse geometry proxy
assembled from basic shapes, and introduces an interactive generation workflow
to support seamless local part editing while delivering responsive 3D object
previewing within a few seconds. To this end, we develop several techniques,
including the 3D adapter that applies volumetric coarse shape control to the
diffusion model, proxy-bounded editing strategy for precise part editing,
progressive volume cache to support responsive preview, and volume-SDS to
ensure consistent mesh reconstruction. Extensive experiments of interactive
generation and editing on diverse shape proxies demonstrate that our method
achieves superior controllability and flexibility in the 3D assets generation
task.Summary
AI-Generated Summary