VGGT-Edit: Feed-Forward native 3D-Szenenbearbeitung mit Residualfeldvorhersage

Zusammenfassung

Hochwertige 3D-Szenenrekonstruktion hat sich in letzter Zeit in Richtung generalisierbarer Feedforward-Architekturen entwickelt, die eine Erzeugung komplexer Umgebungen in einem einzigen Durchlauf ermöglichen. Trotz ihrer starken Leistung bei der Wahrnehmung statischer Szenen bleiben diese Modelle jedoch bei der Reaktion auf dynamische menschliche Anweisungen eingeschränkt, was ihren Einsatz in interaktiven Anwendungen begrenzt. Bestehende Bearbeitungsmethoden verlassen sich typischerweise auf eine 2D-Lifting-Strategie, bei der einzelne Ansichten unabhängig voneinander bearbeitet und dann wieder in den 3D-Raum zurückgehoben werden. Diese indirekte Pipeline führt oft zu unscharfen Texturen und inkonsistenter Geometrie, da 2D-Editoren das erforderliche räumliche Bewusstsein vermissen, um die Struktur über mehrere Blickwinkel hinweg zu bewahren. Um diese Einschränkungen zu adressieren, schlagen wir VGGT-Edit vor, ein Feedforward-Framework für textgesteuerte native 3D-Szenenbearbeitung. VGGT-Edit führt eine tiefensynchronisierte Texteinspritzung ein, um die semantische Anleitung mit den räumlichen Posen des Backbones abzugleichen, was eine stabile Befehlsverankerung gewährleistet. Dieses semantische Signal wird dann von einem Residual-Transformationskopf verarbeitet, der direkt 3D-geometrische Verschiebungen vorhersagt, um die Szene zu verformen, während die Hintergrundstabilität erhalten bleibt. Um hochgetreue Ergebnisse sicherzustellen, überwachen wir das Framework mit einer multivariaten Zielfunktion, die geometrische Genauigkeit und konsistenz über verschiedene Ansichten hinweg erzwingt. Wir erstellen außerdem den DeltaScene-Datensatz, einen großen Datensatz, der durch eine automatisierte Pipeline mit 3D-Übereinstimmungsfilterung generiert wird, um eine hohe Grundwahrheitsqualität zu gewährleisten. Experimente zeigen, dass VGGT-Edit 2D-Lifting-Baselines deutlich übertrifft und schärfere Objektdetails, stärkere Multi-View-Konsistenz sowie nahezu sofortige Inferenzgeschwindigkeit liefert.

English

High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.