VGGT-Edit: feed-forward native 3D-scènebewerking met residuele veldvoorspelling

Samenvatting

Hoogwaardige 3D-scènereconstructie is recentelijk gevorderd richting generaliseerbare feed-forward architecturen, waardoor het genereren van complexe omgevingen in één enkele forward pass mogelijk is. Echter, ondanks hun sterke prestaties in statische scèneperceptie, blijven deze modellen beperkt in het reageren op dynamische menselijke instructies, wat hun gebruik in interactieve toepassingen beperkt. Bestaande bewerkingsmethoden vertrouwen doorgaans op een 2D-liftstrategie, waarbij afzonderlijke aanzichten onafhankelijk worden bewerkt en vervolgens terug naar 3D-ruimte worden gelift. Deze indirecte pijplijn leidt vaak tot wazige texturen en inconsistente geometrie, omdat 2D-editors het ruimtelijke bewustzijn missen dat nodig is om structuur over verschillende gezichtspunten te behouden. Om deze beperkingen aan te pakken, stellen we VGGT-Edit voor, een feed-forward raamwerk voor tekstgestuurde native 3D-scènabewerking. VGGT-Edit introduceert dieptegesynchroniseerde tekstinjectie om semantische begeleiding af te stemmen op de ruimtelijke houdingen van de backbone, wat zorgt voor stabiele instructieverankering. Dit semantische signaal wordt vervolgens verwerkt door een residuele transformatiekop, die direct 3D-geometrische verplaatsingen voorspelt om de scène te vervormen terwijl de achtergrondstabiliteit behouden blijft. Om resultaten van hoge getrouwheid te garanderen, superviseren we het raamwerk met een multi-term objectieve functie die geometrische nauwkeurigheid en cross-view consistentie afdwingt. We construeren ook de DeltaScene-dataset, een grootschalige dataset gegenereerd via een geautomatiseerde pijplijn met 3D-overeenstemmingsfiltering om de kwaliteit van de grondwaarheid te waarborgen. Experimenten tonen aan dat VGGT-Edit aanzienlijk beter presteert dan 2D-liftbaselines, met scherpere objectdetails, sterkere multi-view consistentie en bijna onmiddellijke inferentiesnelheid.

English

High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.