확장 가능하고 일관된 3D 편집을 향하여
Towards Scalable and Consistent 3D Editing
October 3, 2025
저자: Ruihao Xia, Yang Tang, Pan Zhou
cs.AI
초록
3D 편집 - 3D 자산의 기하학적 구조나 외관을 지역적으로 수정하는 작업 - 은 몰입형 콘텐츠 제작, 디지털 엔터테인먼트, AR/VR 등 다양한 분야에서 폭넓게 활용됩니다. 그러나 2D 편집과 달리, 3D 편집은 시각 간 일관성, 구조적 충실도, 세밀한 제어 가능성 등의 요구로 인해 여전히 어려운 과제로 남아 있습니다. 기존의 접근 방식들은 종종 느리거나 기하학적 왜곡이 발생하기 쉬우며, 오류가 발생하기 쉽고 비실용적인 수동적이고 정확한 3D 마스크에 의존합니다. 이러한 문제를 해결하기 위해 우리는 데이터와 모델 두 가지 측면에서 발전을 이루었습니다. 데이터 측면에서는, 현재까지 가장 큰 규모의 3D 편집 벤치마크인 3DEditVerse를 소개합니다. 이는 116,309개의 고품질 학습 쌍과 1,500개의 선별된 테스트 쌍으로 구성되어 있습니다. 포즈 기반 기하학적 편집과 파운데이션 모델 기반 외관 편집의 상호 보완적인 파이프라인을 통해 구축된 3DEditVerse는 편집의 지역성, 다중 시각 일관성, 그리고 의미론적 정렬을 보장합니다. 모델 측면에서는, 3D 구조를 보존하는 조건부 트랜스포머인 3DEditFormer를 제안합니다. 듀얼-가이던스 어텐션과 시간 적응형 게이팅을 통해 이미지-3D 생성을 강화함으로써, 3DEditFormer는 보존된 구조에서 편집 가능한 영역을 분리하여, 보조 3D 마스크 없이도 정확하고 일관된 편집을 가능하게 합니다. 광범위한 실험을 통해 우리의 프레임워크가 양적 및 질적으로 최신 기술을 능가하며, 실용적이고 확장 가능한 3D 편집의 새로운 표준을 수립함을 입증했습니다. 데이터셋과 코드는 공개될 예정입니다. 프로젝트: https://www.lv-lab.org/3DEditFormer/
English
3D editing - the task of locally modifying the geometry or appearance of a 3D
asset - has wide applications in immersive content creation, digital
entertainment, and AR/VR. However, unlike 2D editing, it remains challenging
due to the need for cross-view consistency, structural fidelity, and
fine-grained controllability. Existing approaches are often slow, prone to
geometric distortions, or dependent on manual and accurate 3D masks that are
error-prone and impractical. To address these challenges, we advance both the
data and model fronts. On the data side, we introduce 3DEditVerse, the largest
paired 3D editing benchmark to date, comprising 116,309 high-quality training
pairs and 1,500 curated test pairs. Built through complementary pipelines of
pose-driven geometric edits and foundation model-guided appearance edits,
3DEditVerse ensures edit locality, multi-view consistency, and semantic
alignment. On the model side, we propose 3DEditFormer, a
3D-structure-preserving conditional transformer. By enhancing image-to-3D
generation with dual-guidance attention and time-adaptive gating, 3DEditFormer
disentangles editable regions from preserved structure, enabling precise and
consistent edits without requiring auxiliary 3D masks. Extensive experiments
demonstrate that our framework outperforms state-of-the-art baselines both
quantitatively and qualitatively, establishing a new standard for practical and
scalable 3D editing. Dataset and code will be released. Project:
https://www.lv-lab.org/3DEditFormer/