VGGT-Edit : Édition native de scène 3D par feed-forward avec prédiction de champ résiduel

Résumé

La reconstruction de scènes 3D de haute qualité a récemment progressé vers des architectures feed-forward généralisables, permettant de générer des environnements complexes en un seul passage avant. Cependant, malgré leurs performances solides dans la perception de scènes statiques, ces modèles restent limités dans leur capacité à répondre à des instructions humaines dynamiques, ce qui restreint leur utilisation dans des applications interactives. Les méthodes d'édition existantes reposent généralement sur une stratégie de remontée 2D, où les vues individuelles sont éditées indépendamment puis remontées dans l'espace 3D. Ce pipeline indirect conduit souvent à des textures floues et à une géométrie incohérente, car les éditeurs 2D manquent de la conscience spatiale nécessaire pour préserver la structure d'un point de vue à l'autre. Pour remédier à ces limitations, nous proposons VGGT-Edit, un cadre feed-forward pour l'édition native de scènes 3D conditionnée par du texte. VGGT-Edit introduit une injection de texte synchronisée en profondeur pour aligner les orientations sémantiques avec les poses spatiales du backbone, assurant ainsi un ancrage stable des instructions. Ce signal sémantique est ensuite traité par une tête de transformation résiduelle, qui prédit directement les déplacements géométriques 3D pour déformer la scène tout en préservant la stabilité de l'arrière-plan. Pour garantir des résultats de haute fidélité, nous supervisons le cadre avec une fonction objectif multi-termes qui impose une précision géométrique et une cohérence inter-vues. Nous construisons également l'ensemble de données DeltaScene, un jeu de données à grande échelle généré via un pipeline automatisé avec filtrage par accord 3D pour assurer la qualité des vérités terrain. Les expériences montrent que VGGT-Edit surpasse considérablement les bases de la remontée 2D, produisant des détails d'objets plus nets, une forte cohérence multi-vues et une vitesse d'inférence quasi instantanée.

English

High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.