Vers une Édition 3D Évolutive et Cohérente
Towards Scalable and Consistent 3D Editing
October 3, 2025
papers.authors: Ruihao Xia, Yang Tang, Pan Zhou
cs.AI
papers.abstract
L'édition 3D - la tâche consistant à modifier localement la géométrie ou l'apparence d'un actif 3D - trouve des applications variées dans la création de contenu immersif, le divertissement numérique et la réalité augmentée/virtuelle (AR/VR). Cependant, contrairement à l'édition 2D, elle reste complexe en raison de la nécessité d'une cohérence inter-vues, d'une fidélité structurelle et d'une contrôlabilité fine. Les approches existantes sont souvent lentes, sujettes à des distorsions géométriques ou dépendent de masques 3D manuels et précis, qui sont source d'erreurs et peu pratiques. Pour relever ces défis, nous progressons à la fois sur les fronts des données et des modèles. Du côté des données, nous introduisons 3DEditVerse, le plus grand benchmark d'édition 3D apparié à ce jour, comprenant 116 309 paires d'entraînement de haute qualité et 1 500 paires de test soigneusement sélectionnées. Construit à travers des pipelines complémentaires d'éditions géométriques pilotées par la pose et d'éditions d'apparence guidées par des modèles de fondation, 3DEditVerse garantit la localité des modifications, la cohérence multi-vues et l'alignement sémantique. Du côté des modèles, nous proposons 3DEditFormer, un transformeur conditionnel préservant la structure 3D. En améliorant la génération d'images en 3D grâce à une attention à double guidage et à une porte temporelle adaptative, 3DEditFormer dissocie les régions modifiables de la structure préservée, permettant des modifications précises et cohérentes sans nécessiter de masques 3D auxiliaires. Des expériences approfondies démontrent que notre cadre surpasse les références de pointe à la fois quantitativement et qualitativement, établissant une nouvelle norme pour l'édition 3D pratique et évolutive. Le jeu de données et le code seront publiés. Projet : https://www.lv-lab.org/3DEditFormer/
English
3D editing - the task of locally modifying the geometry or appearance of a 3D
asset - has wide applications in immersive content creation, digital
entertainment, and AR/VR. However, unlike 2D editing, it remains challenging
due to the need for cross-view consistency, structural fidelity, and
fine-grained controllability. Existing approaches are often slow, prone to
geometric distortions, or dependent on manual and accurate 3D masks that are
error-prone and impractical. To address these challenges, we advance both the
data and model fronts. On the data side, we introduce 3DEditVerse, the largest
paired 3D editing benchmark to date, comprising 116,309 high-quality training
pairs and 1,500 curated test pairs. Built through complementary pipelines of
pose-driven geometric edits and foundation model-guided appearance edits,
3DEditVerse ensures edit locality, multi-view consistency, and semantic
alignment. On the model side, we propose 3DEditFormer, a
3D-structure-preserving conditional transformer. By enhancing image-to-3D
generation with dual-guidance attention and time-adaptive gating, 3DEditFormer
disentangles editable regions from preserved structure, enabling precise and
consistent edits without requiring auxiliary 3D masks. Extensive experiments
demonstrate that our framework outperforms state-of-the-art baselines both
quantitatively and qualitatively, establishing a new standard for practical and
scalable 3D editing. Dataset and code will be released. Project:
https://www.lv-lab.org/3DEditFormer/