Naar schaalbare en consistente 3D-bewerking
Towards Scalable and Consistent 3D Editing
October 3, 2025
Auteurs: Ruihao Xia, Yang Tang, Pan Zhou
cs.AI
Samenvatting
3D-bewerking - de taak van het lokaal aanpassen van de geometrie of het uiterlijk van een 3D-asset - heeft brede toepassingen in het creëren van immersieve content, digitale entertainment en AR/VR. In tegenstelling tot 2D-bewerking blijft het echter uitdagend vanwege de noodzaak van consistentie tussen verschillende perspectieven, structurele nauwkeurigheid en fijnmazige bestuurbaarheid. Bestaande benaderingen zijn vaak traag, gevoelig voor geometrische vervormingen, of afhankelijk van handmatige en nauwkeurige 3D-maskers die foutgevoelig en onpraktisch zijn. Om deze uitdagingen aan te pakken, zetten we stappen op zowel het gebied van data als modellen. Aan de datazijde introduceren we 3DEditVerse, de grootste gepaarde 3D-bewerkingsbenchmark tot nu toe, bestaande uit 116.309 hoogwaardige trainingsparen en 1.500 gecureerde testparen. Gebouwd via complementaire pipelines van pose-gestuurde geometrische bewerkingen en foundation model-gestuurde uiterlijke bewerkingen, zorgt 3DEditVerse voor lokale bewerkingen, consistentie tussen meerdere perspectieven en semantische uitlijning. Aan de modelzijde stellen we 3DEditFormer voor, een 3D-structuurbehoudende conditionele transformer. Door beeld-naar-3D-generatie te versterken met dual-guidance aandacht en tijd-adaptieve gating, ontwart 3DEditFormer bewerkbare regio's van behouden structuren, waardoor precieze en consistente bewerkingen mogelijk zijn zonder aanvullende 3D-maskers. Uitgebreide experimenten tonen aan dat ons framework state-of-the-art baselines zowel kwantitatief als kwalitatief overtreft, en zo een nieuwe standaard zet voor praktische en schaalbare 3D-bewerking. Dataset en code zullen worden vrijgegeven. Project: https://www.lv-lab.org/3DEditFormer/
English
3D editing - the task of locally modifying the geometry or appearance of a 3D
asset - has wide applications in immersive content creation, digital
entertainment, and AR/VR. However, unlike 2D editing, it remains challenging
due to the need for cross-view consistency, structural fidelity, and
fine-grained controllability. Existing approaches are often slow, prone to
geometric distortions, or dependent on manual and accurate 3D masks that are
error-prone and impractical. To address these challenges, we advance both the
data and model fronts. On the data side, we introduce 3DEditVerse, the largest
paired 3D editing benchmark to date, comprising 116,309 high-quality training
pairs and 1,500 curated test pairs. Built through complementary pipelines of
pose-driven geometric edits and foundation model-guided appearance edits,
3DEditVerse ensures edit locality, multi-view consistency, and semantic
alignment. On the model side, we propose 3DEditFormer, a
3D-structure-preserving conditional transformer. By enhancing image-to-3D
generation with dual-guidance attention and time-adaptive gating, 3DEditFormer
disentangles editable regions from preserved structure, enabling precise and
consistent edits without requiring auxiliary 3D masks. Extensive experiments
demonstrate that our framework outperforms state-of-the-art baselines both
quantitatively and qualitatively, establishing a new standard for practical and
scalable 3D editing. Dataset and code will be released. Project:
https://www.lv-lab.org/3DEditFormer/