ChatPaper.aiChatPaper

Hacia una Edición 3D Escalable y Consistente

Towards Scalable and Consistent 3D Editing

October 3, 2025
Autores: Ruihao Xia, Yang Tang, Pan Zhou
cs.AI

Resumen

La edición 3D - la tarea de modificar localmente la geometría o la apariencia de un activo 3D - tiene amplias aplicaciones en la creación de contenido inmersivo, entretenimiento digital y AR/VR. Sin embargo, a diferencia de la edición 2D, sigue siendo un desafío debido a la necesidad de consistencia entre vistas, fidelidad estructural y controlabilidad de grano fino. Los enfoques existentes suelen ser lentos, propensos a distorsiones geométricas o dependen de máscaras 3D manuales y precisas que son propensas a errores e impracticables. Para abordar estos desafíos, avanzamos tanto en el frente de datos como en el de modelos. En el lado de los datos, presentamos 3DEditVerse, el mayor benchmark de edición 3D emparejado hasta la fecha, que comprende 116,309 pares de entrenamiento de alta calidad y 1,500 pares de prueba curados. Construido a través de pipelines complementarios de ediciones geométricas impulsadas por pose y ediciones de apariencia guiadas por modelos fundacionales, 3DEditVerse garantiza la localidad de la edición, la consistencia multivista y la alineación semántica. En el lado del modelo, proponemos 3DEditFormer, un transformador condicional que preserva la estructura 3D. Al mejorar la generación de imagen a 3D con atención de doble guía y compuertas adaptativas en el tiempo, 3DEditFormer desenreda las regiones editables de la estructura preservada, permitiendo ediciones precisas y consistentes sin requerir máscaras 3D auxiliares. Experimentos extensos demuestran que nuestro marco supera a los baselines de última generación tanto cuantitativa como cualitativamente, estableciendo un nuevo estándar para la edición 3D práctica y escalable. El conjunto de datos y el código serán liberados. Proyecto: https://www.lv-lab.org/3DEditFormer/
English
3D editing - the task of locally modifying the geometry or appearance of a 3D asset - has wide applications in immersive content creation, digital entertainment, and AR/VR. However, unlike 2D editing, it remains challenging due to the need for cross-view consistency, structural fidelity, and fine-grained controllability. Existing approaches are often slow, prone to geometric distortions, or dependent on manual and accurate 3D masks that are error-prone and impractical. To address these challenges, we advance both the data and model fronts. On the data side, we introduce 3DEditVerse, the largest paired 3D editing benchmark to date, comprising 116,309 high-quality training pairs and 1,500 curated test pairs. Built through complementary pipelines of pose-driven geometric edits and foundation model-guided appearance edits, 3DEditVerse ensures edit locality, multi-view consistency, and semantic alignment. On the model side, we propose 3DEditFormer, a 3D-structure-preserving conditional transformer. By enhancing image-to-3D generation with dual-guidance attention and time-adaptive gating, 3DEditFormer disentangles editable regions from preserved structure, enabling precise and consistent edits without requiring auxiliary 3D masks. Extensive experiments demonstrate that our framework outperforms state-of-the-art baselines both quantitatively and qualitatively, establishing a new standard for practical and scalable 3D editing. Dataset and code will be released. Project: https://www.lv-lab.org/3DEditFormer/
PDF12October 10, 2025