Hin zu skalierbarer und konsistenter 3D-Bearbeitung
Towards Scalable and Consistent 3D Editing
October 3, 2025
papers.authors: Ruihao Xia, Yang Tang, Pan Zhou
cs.AI
papers.abstract
3D-Bearbeitung – die Aufgabe, die Geometrie oder das Erscheinungsbild eines 3D-Assets lokal zu modifizieren – hat breite Anwendungen in der Erstellung immersiver Inhalte, digitaler Unterhaltung und AR/VR. Im Gegensatz zur 2D-Bearbeitung bleibt sie jedoch aufgrund der Anforderungen an konsistente Ansichten, strukturelle Treue und fein abgestufte Steuerbarkeit herausfordernd. Bestehende Ansätze sind oft langsam, anfällig für geometrische Verzerrungen oder abhängig von manuellen und präzisen 3D-Masken, die fehleranfällig und unpraktisch sind. Um diese Herausforderungen zu bewältigen, verbessern wir sowohl die Daten- als auch die Modellseite. Auf der Datenseite führen wir 3DEditVerse ein, den bisher größten gepaarten 3D-Bearbeitungs-Benchmark, der 116.309 hochwertige Trainingspaare und 1.500 kuratierte Testpaare umfasst. Durch komplementäre Pipelines von posengesteuerten geometrischen Bearbeitungen und durch Foundation-Modelle geleitete Erscheinungsbearbeitungen gewährleistet 3DEditVerse lokale Bearbeitung, Mehransichtskonsistenz und semantische Ausrichtung. Auf der Modellseite schlagen wir 3DEditFormer vor, einen 3D-strukturerhaltenden bedingten Transformer. Durch die Verbesserung der Bild-zu-3D-Generierung mit dualer Leitungsaufmerksamkeit und zeitadaptiver Steuerung entkoppelt 3DEditFormer bearbeitbare Bereiche von der erhaltenen Struktur und ermöglicht präzise und konsistente Bearbeitungen ohne zusätzliche 3D-Masken. Umfangreiche Experimente zeigen, dass unser Framework sowohl quantitativ als auch qualitativ state-of-the-art Baselines übertrifft und einen neuen Standard für praktische und skalierbare 3D-Bearbeitung setzt. Datensatz und Code werden veröffentlicht. Projekt: https://www.lv-lab.org/3DEditFormer/
English
3D editing - the task of locally modifying the geometry or appearance of a 3D
asset - has wide applications in immersive content creation, digital
entertainment, and AR/VR. However, unlike 2D editing, it remains challenging
due to the need for cross-view consistency, structural fidelity, and
fine-grained controllability. Existing approaches are often slow, prone to
geometric distortions, or dependent on manual and accurate 3D masks that are
error-prone and impractical. To address these challenges, we advance both the
data and model fronts. On the data side, we introduce 3DEditVerse, the largest
paired 3D editing benchmark to date, comprising 116,309 high-quality training
pairs and 1,500 curated test pairs. Built through complementary pipelines of
pose-driven geometric edits and foundation model-guided appearance edits,
3DEditVerse ensures edit locality, multi-view consistency, and semantic
alignment. On the model side, we propose 3DEditFormer, a
3D-structure-preserving conditional transformer. By enhancing image-to-3D
generation with dual-guidance attention and time-adaptive gating, 3DEditFormer
disentangles editable regions from preserved structure, enabling precise and
consistent edits without requiring auxiliary 3D masks. Extensive experiments
demonstrate that our framework outperforms state-of-the-art baselines both
quantitatively and qualitatively, establishing a new standard for practical and
scalable 3D editing. Dataset and code will be released. Project:
https://www.lv-lab.org/3DEditFormer/