VGGT-Edit: Edição de Cena 3D Nativa Feed-forward com Predição de Campo Residual

Resumo

A reconstrução de cenas 3D de alta qualidade recentemente avançou em direção a arquiteturas feed-forward generalizáveis, permitindo a geração de ambientes complexos em uma única passagem direta. No entanto, apesar de seu forte desempenho na percepção de cenas estáticas, esses modelos ainda são limitados ao responder a instruções humanas dinâmicas, o que restringe seu uso em aplicações interativas. Os métodos de edição existentes geralmente dependem de uma estratégia de elevação 2D, onde vistas individuais são editadas independentemente e depois elevadas de volta ao espaço 3D. Esse pipeline indireto frequentemente resulta em texturas borradas e geometria inconsistente, pois os editores 2D não possuem a consciência espacial necessária para preservar a estrutura entre os pontos de vista. Para abordar essas limitações, propomos o VGGT-Edit, um arcabouço feed-forward para edição nativa de cenas 3D condicionada por texto. O VGGT-Edit introduz a injeção de texto sincronizada com profundidade para alinhar a orientação semântica com as poses espaciais do backbone, garantindo um fundamento estável das instruções. Esse sinal semântico é então processado por uma cabeça de transformação residual, que prevê diretamente deslocamentos geométricos 3D para deformar a cena, preservando ao mesmo tempo a estabilidade do fundo. Para garantir resultados de alta fidelidade, supervisionamos o arcabouço com uma função objetivo multi-termo que impõe precisão geométrica e consistência entre vistas. Também construímos o Dataset DeltaScene, um conjunto de dados em grande escala gerado por meio de um pipeline automatizado com filtragem de concordância 3D para assegurar a qualidade do ground-truth. Experimentos mostram que o VGGT-Edit supera substancialmente as linhas de base de elevação 2D, produzindo detalhes de objeto mais nítidos, consistência multi-visão mais forte e velocidade de inferência quase instantânea.

English

High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.