К масштабируемому и согласованному редактированию 3D-моделей
Towards Scalable and Consistent 3D Editing
October 3, 2025
Авторы: Ruihao Xia, Yang Tang, Pan Zhou
cs.AI
Аннотация
3D-редактирование — задача локального изменения геометрии или внешнего вида 3D-объекта — имеет широкое применение в создании иммерсивного контента, цифровых развлечениях и AR/VR. Однако, в отличие от 2D-редактирования, оно остается сложным из-за необходимости обеспечения кросс-видовой согласованности, структурной точности и детализированной управляемости. Существующие подходы часто медленны, склонны к геометрическим искажениям или зависят от ручного и точного создания 3D-масок, что подвержено ошибкам и непрактично. Для решения этих проблем мы продвигаемся как на уровне данных, так и на уровне моделей. На стороне данных мы представляем 3DEditVerse — крупнейший на сегодняшний день парный бенчмарк для 3D-редактирования, включающий 116 309 высококачественных обучающих пар и 1 500 тщательно отобранных тестовых пар. Созданный с помощью комплементарных подходов, включающих геометрические правки на основе поз и правки внешнего вида, управляемые базовыми моделями, 3DEditVerse обеспечивает локальность правок, согласованность между видами и семантическое соответствие. На стороне моделей мы предлагаем 3DEditFormer — условный трансформер, сохраняющий 3D-структуру. Улучшая генерацию изображений в 3D с помощью двойного внимания и временно-адаптивного управления, 3DEditFormer разделяет редактируемые области и сохраняемую структуру, что позволяет выполнять точные и согласованные правки без необходимости вспомогательных 3D-масок. Многочисленные эксперименты демонстрируют, что наш подход превосходит современные базовые методы как количественно, так и качественно, устанавливая новый стандарт для практичного и масштабируемого 3D-редактирования. Набор данных и код будут опубликованы. Проект: https://www.lv-lab.org/3DEditFormer/
English
3D editing - the task of locally modifying the geometry or appearance of a 3D
asset - has wide applications in immersive content creation, digital
entertainment, and AR/VR. However, unlike 2D editing, it remains challenging
due to the need for cross-view consistency, structural fidelity, and
fine-grained controllability. Existing approaches are often slow, prone to
geometric distortions, or dependent on manual and accurate 3D masks that are
error-prone and impractical. To address these challenges, we advance both the
data and model fronts. On the data side, we introduce 3DEditVerse, the largest
paired 3D editing benchmark to date, comprising 116,309 high-quality training
pairs and 1,500 curated test pairs. Built through complementary pipelines of
pose-driven geometric edits and foundation model-guided appearance edits,
3DEditVerse ensures edit locality, multi-view consistency, and semantic
alignment. On the model side, we propose 3DEditFormer, a
3D-structure-preserving conditional transformer. By enhancing image-to-3D
generation with dual-guidance attention and time-adaptive gating, 3DEditFormer
disentangles editable regions from preserved structure, enabling precise and
consistent edits without requiring auxiliary 3D masks. Extensive experiments
demonstrate that our framework outperforms state-of-the-art baselines both
quantitatively and qualitatively, establishing a new standard for practical and
scalable 3D editing. Dataset and code will be released. Project:
https://www.lv-lab.org/3DEditFormer/