Verso un Editing 3D Scalabile e Coerente
Towards Scalable and Consistent 3D Editing
October 3, 2025
Autori: Ruihao Xia, Yang Tang, Pan Zhou
cs.AI
Abstract
L'editing 3D - il compito di modificare localmente la geometria o l'aspetto di un asset 3D - ha ampie applicazioni nella creazione di contenuti immersivi, nell'intrattenimento digitale e nella realtà aumentata/virtuale (AR/VR). Tuttavia, a differenza dell'editing 2D, rimane una sfida a causa della necessità di coerenza tra le visuali, fedeltà strutturale e controllabilità fine-granulare. Gli approcci esistenti sono spesso lenti, soggetti a distorsioni geometriche o dipendenti da maschere 3D manuali e precise, che sono soggette a errori e poco pratiche. Per affrontare queste sfide, avanziamo sia sul fronte dei dati che dei modelli. Sul lato dei dati, introduciamo 3DEditVerse, il più grande benchmark di editing 3D accoppiato fino ad oggi, composto da 116.309 coppie di addestramento di alta qualità e 1.500 coppie di test curate. Costruito attraverso pipeline complementari di modifiche geometriche guidate dalla posa e modifiche dell'aspetto guidate da modelli di fondazione, 3DEditVerse garantisce località delle modifiche, coerenza multi-vista e allineamento semantico. Sul lato del modello, proponiamo 3DEditFormer, un trasformatore condizionale che preserva la struttura 3D. Migliorando la generazione da immagine a 3D con attenzione a doppia guida e gating adattivo nel tempo, 3DEditFormer separa le regioni modificabili dalla struttura preservata, consentendo modifiche precise e coerenti senza richiedere maschere 3D ausiliarie. Esperimenti estensivi dimostrano che il nostro framework supera i baselines di stato dell'arte sia quantitativamente che qualitativamente, stabilendo un nuovo standard per l'editing 3D pratico e scalabile. Dataset e codice saranno rilasciati. Progetto: https://www.lv-lab.org/3DEditFormer/
English
3D editing - the task of locally modifying the geometry or appearance of a 3D
asset - has wide applications in immersive content creation, digital
entertainment, and AR/VR. However, unlike 2D editing, it remains challenging
due to the need for cross-view consistency, structural fidelity, and
fine-grained controllability. Existing approaches are often slow, prone to
geometric distortions, or dependent on manual and accurate 3D masks that are
error-prone and impractical. To address these challenges, we advance both the
data and model fronts. On the data side, we introduce 3DEditVerse, the largest
paired 3D editing benchmark to date, comprising 116,309 high-quality training
pairs and 1,500 curated test pairs. Built through complementary pipelines of
pose-driven geometric edits and foundation model-guided appearance edits,
3DEditVerse ensures edit locality, multi-view consistency, and semantic
alignment. On the model side, we propose 3DEditFormer, a
3D-structure-preserving conditional transformer. By enhancing image-to-3D
generation with dual-guidance attention and time-adaptive gating, 3DEditFormer
disentangles editable regions from preserved structure, enabling precise and
consistent edits without requiring auxiliary 3D masks. Extensive experiments
demonstrate that our framework outperforms state-of-the-art baselines both
quantitatively and qualitatively, establishing a new standard for practical and
scalable 3D editing. Dataset and code will be released. Project:
https://www.lv-lab.org/3DEditFormer/