VGGT-Edit: Edición nativa de escenas 3D feed-forward mediante predicción de campo residual

Resumen

La reconstrucción de escenas 3D de alta calidad ha avanzado recientemente hacia arquitecturas de alimentación directa generalizables, lo que permite generar entornos complejos en un solo paso directo. Sin embargo, a pesar de su sólido rendimiento en la percepción de escenas estáticas, estos modelos siguen siendo limitados para responder a instrucciones humanas dinámicas, lo que restringe su uso en aplicaciones interactivas. Los métodos de edición existentes suelen basarse en una estrategia de elevación 2D, donde las vistas individuales se editan de forma independiente y luego se elevan de vuelta al espacio 3D. Este proceso indirecto a menudo genera texturas borrosas y geometría inconsistente, ya que los editores 2D carecen de la conciencia espacial necesaria para preservar la estructura entre diferentes puntos de vista. Para abordar estas limitaciones, proponemos VGGT-Edit, un marco de alimentación directa para la edición nativa de escenas 3D condicionada por texto. VGGT-Edit introduce una inyección de texto sincronizada con la profundidad para alinear la guía semántica con las posturas espaciales de la red principal, asegurando una base estable para las instrucciones. Esta señal semántica es procesada luego por un cabezal de transformación residual, que predice directamente desplazamientos geométricos 3D para deformar la escena mientras preserva la estabilidad del fondo. Para garantizar resultados de alta fidelidad, supervisamos el marco con una función objetivo de múltiples términos que refuerza la precisión geométrica y la consistencia entre vistas. También construimos el conjunto de datos DeltaScene, un conjunto de datos a gran escala generado mediante un proceso automatizado con filtrado de acuerdo 3D para asegurar la calidad de la verdad fundamental. Los experimentos muestran que VGGT-Edit supera significativamente a las líneas base de elevación 2D, produciendo detalles de objetos más nítidos, una consistencia multivista más sólida y una velocidad de inferencia casi instantánea.

English

High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.