Tailor3D: 양면 이미지를 활용한 맞춤형 3D 에셋 편집 및 생성
Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
July 8, 2024
저자: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao
cs.AI
초록
최근 3D AIGC(인공지능 생성 콘텐츠)의 발전은 텍스트와 이미지로부터 직접 3D 객체를 생성하는 데 있어 유망한 가능성을 보여주며, 애니메이션 및 제품 디자인 분야에서 상당한 비용 절감을 제공하고 있습니다. 그러나 3D 자산의 세부 편집과 커스터마이징은 여전히 오랜 과제로 남아 있습니다. 특히, 3D 생성 방법은 2D 이미지 생성과 비교할 때 세밀한 지시를 정확히 따르는 능력이 부족합니다. 예를 들어, 3D AIGC를 통해 장난감을 얻을 수 있지만 원하지 않는 액세서리와 옷이 포함될 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 편집 가능한 양면 이미지로부터 맞춤형 3D 자산을 신속하게 생성하는 Tailor3D라는 새로운 파이프라인을 제안합니다. 우리는 재단사의 능력을 모방하여 객체를 부분적으로 변경하거나 전체적인 스타일 전환을 수행하는 것을 목표로 합니다. 다중 뷰에서 3D 자산을 생성하는 것과 달리, 양면 이미지를 사용하면 개별 뷰를 편집할 때 발생하는 중첩 영역의 충돌을 제거할 수 있습니다. 구체적으로, 이 방법은 프론트 뷰를 먼저 편집한 다음, 다중 뷰 확산을 통해 객체의 백 뷰를 생성합니다. 이후 백 뷰를 편집하고, 마지막으로 Dual-sided LRM(Latent Representation Model)을 통해 프론트와 백 3D 특징을 원활하게 결합합니다. 이는 재단사가 옷의 앞뒤를 꿰매는 것과 유사합니다. Dual-sided LRM은 프론트와 백 뷰 간의 불완전한 일관성을 수정하여 편집 능력을 향상시키고 메모리 부담을 줄이며, LoRA Triplane Transformer를 통해 이를 통합된 3D 표현으로 원활하게 통합합니다. 실험 결과는 Tailor3D가 3D 생성 및 편집 작업, 특히 3D 생성 채우기 및 스타일 전환에서의 효과를 입증합니다. 이는 사용자 친화적이고 효율적인 3D 자산 편집 솔루션을 제공하며, 각 편집 단계는 단 몇 초만에 완료됩니다.
English
Recent advances in 3D AIGC have shown promise in directly creating 3D objects
from text and images, offering significant cost savings in animation and
product design. However, detailed edit and customization of 3D assets remains a
long-standing challenge. Specifically, 3D Generation methods lack the ability
to follow finely detailed instructions as precisely as their 2D image creation
counterparts. Imagine you can get a toy through 3D AIGC but with undesired
accessories and dressing. To tackle this challenge, we propose a novel pipeline
called Tailor3D, which swiftly creates customized 3D assets from editable
dual-side images. We aim to emulate a tailor's ability to locally change
objects or perform overall style transfer. Unlike creating 3D assets from
multiple views, using dual-side images eliminates conflicts on overlapping
areas that occur when editing individual views. Specifically, it begins by
editing the front view, then generates the back view of the object through
multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a
Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D
features, akin to a tailor sewing together the front and back of a garment. The
Dual-sided LRM rectifies imperfect consistencies between the front and back
views, enhancing editing capabilities and reducing memory burdens while
seamlessly integrating them into a unified 3D representation with the LoRA
Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness
across various 3D generation and editing tasks, including 3D generative fill
and style transfer. It provides a user-friendly, efficient solution for editing
3D assets, with each editing step taking only seconds to complete.Summary
AI-Generated Summary