Rumo à Edição 3D Escalável e Consistente
Towards Scalable and Consistent 3D Editing
October 3, 2025
Autores: Ruihao Xia, Yang Tang, Pan Zhou
cs.AI
Resumo
Edição 3D - a tarefa de modificar localmente a geometria ou aparência de um ativo 3D - tem amplas aplicações na criação de conteúdo imersivo, entretenimento digital e AR/VR. No entanto, ao contrário da edição 2D, ela permanece desafiadora devido à necessidade de consistência entre vistas, fidelidade estrutural e controlabilidade refinada. As abordagens existentes são frequentemente lentas, propensas a distorções geométricas ou dependentes de máscaras 3D manuais e precisas, que são propensas a erros e impraticáveis. Para enfrentar esses desafios, avançamos tanto na frente de dados quanto na de modelos. No lado dos dados, introduzimos o 3DEditVerse, o maior benchmark de edição 3D pareado até o momento, composto por 116.309 pares de treinamento de alta qualidade e 1.500 pares de teste curados. Construído através de pipelines complementares de edições geométricas orientadas por pose e edições de aparência guiadas por modelos de fundação, o 3DEditVerse garente localidade de edição, consistência multivista e alinhamento semântico. No lado dos modelos, propomos o 3DEditFormer, um transformador condicional que preserva a estrutura 3D. Ao aprimorar a geração de imagem para 3D com atenção de dupla orientação e portas adaptativas no tempo, o 3DEditFormer separa regiões editáveis da estrutura preservada, permitindo edições precisas e consistentes sem a necessidade de máscaras 3D auxiliares. Experimentos extensivos demonstram que nosso framework supera as baselines state-of-the-art tanto quantitativa quanto qualitativamente, estabelecendo um novo padrão para edição 3D prática e escalável. O conjunto de dados e o código serão liberados. Projeto: https://www.lv-lab.org/3DEditFormer/
English
3D editing - the task of locally modifying the geometry or appearance of a 3D
asset - has wide applications in immersive content creation, digital
entertainment, and AR/VR. However, unlike 2D editing, it remains challenging
due to the need for cross-view consistency, structural fidelity, and
fine-grained controllability. Existing approaches are often slow, prone to
geometric distortions, or dependent on manual and accurate 3D masks that are
error-prone and impractical. To address these challenges, we advance both the
data and model fronts. On the data side, we introduce 3DEditVerse, the largest
paired 3D editing benchmark to date, comprising 116,309 high-quality training
pairs and 1,500 curated test pairs. Built through complementary pipelines of
pose-driven geometric edits and foundation model-guided appearance edits,
3DEditVerse ensures edit locality, multi-view consistency, and semantic
alignment. On the model side, we propose 3DEditFormer, a
3D-structure-preserving conditional transformer. By enhancing image-to-3D
generation with dual-guidance attention and time-adaptive gating, 3DEditFormer
disentangles editable regions from preserved structure, enabling precise and
consistent edits without requiring auxiliary 3D masks. Extensive experiments
demonstrate that our framework outperforms state-of-the-art baselines both
quantitatively and qualitatively, establishing a new standard for practical and
scalable 3D editing. Dataset and code will be released. Project:
https://www.lv-lab.org/3DEditFormer/