VGGT-Edit: Нативное редактирование 3D-сцен с прямым распространением и предсказанием остаточного поля

Аннотация

Высококачественная реконструкция 3D-сцен в последнее время продвинулась в сторону обобщаемых feed-forward архитектур, позволяющих генерировать сложные среды за один прямой проход. Однако, несмотря на высокую производительность в восприятии статических сцен, эти модели остаются ограниченными в реагировании на динамические инструкции человека, что ограничивает их использование в интерактивных приложениях. Существующие методы редактирования обычно полагаются на стратегию 2D-подъема, при которой отдельные виды редактируются независимо, а затем поднимаются обратно в 3D-пространство. Этот косвенный пайплайн часто приводит к размытым текстурам и несогласованной геометрии, поскольку 2D-редакторам не хватает пространственного осознания, необходимого для сохранения структуры между ракурсами. Для преодоления этих ограничений мы предлагаем VGGT-Edit — feed-forward фреймворк для текстово-обусловленного нативного редактирования 3D-сцен. VGGT-Edit вводит синхронизированное по глубине внедрение текста для согласования семантического руководства с пространственными позами бэкбона, обеспечивая стабильное закрепление инструкций. Затем этот семантический сигнал обрабатывается головкой остаточного преобразования, которая напрямую предсказывает 3D геометрические смещения для деформации сцены при сохранении стабильности фона. Для обеспечения высокоточных результатов мы обучаем фреймворк с помощью многочленной целевой функции, которая обеспечивает геометрическую точность и согласованность между видами. Мы также создаем датасет DeltaScene — крупномасштабный датасет, сгенерированный с помощью автоматизированного пайплайна с фильтрацией по 3D согласованности для обеспечения качества истинных данных. Эксперименты показывают, что VGGT-Edit значительно превосходит базовые линии на основе 2D-подъема, обеспечивая более четкие детали объектов, более сильную согласованность между видами и почти мгновенную скорость вывода.

English

High-quality 3D scene reconstruction has recently advanced toward generalizable feed-forward architectures, enabling the generation of complex environments in a single forward pass. However, despite their strong performance in static scene perception, these models remain limited in responding to dynamic human instructions, which restricts their use in interactive applications. Existing editing methods typically rely on a 2D-lifting strategy, where individual views are edited independently and then lifted back into 3D space. This indirect pipeline often leads to blurry textures and inconsistent geometry, as 2D editors lack the spatial awareness required to preserve structure across viewpoints. To address these limitations, we propose VGGT-Edit, a feed-forward framework for text-conditioned native 3D scene editing. VGGT-Edit introduces depth-synchronized text injection to align semantic guidance with the backbone's spatial poses, ensuring stable instruction grounding. This semantic signal is then processed by a residual transformation head, which directly predicts 3D geometric displacements to deform the scene while preserving background stability. To ensure high-fidelity results, we supervise the framework with a multi-term objective function that enforces geometric accuracy and cross-view consistency. We also construct the DeltaScene Dataset, a large-scale dataset generated through an automated pipeline with 3D agreement filtering to ensure ground-truth quality. Experiments show that VGGT-Edit substantially outperforms 2D-lifting baselines, producing sharper object details, stronger multi-view consistency, and near-instant inference speed.