ChatPaper.aiChatPaper

De Uno a Varios: Latentes Contextuales de Partes para la Generación 3D

From One to More: Contextual Part Latents for 3D Generation

July 11, 2025
Autores: Shaocong Dong, Lihe Ding, Xiao Chen, Yaokun Li, Yuxin Wang, Yucheng Wang, Qi Wang, Jaehyeok Kim, Chenjian Gao, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu
cs.AI

Resumen

Los recientes avances en generación 3D han evolucionado desde enfoques de renderizado 2D multi-vista hacia marcos de difusión latente nativos en 3D que aprovechan los priors geométricos en datos de referencia. A pesar del progreso, persisten tres limitaciones clave: (1) Las representaciones de latente único no logran capturar geometrías complejas de múltiples partes, causando degradación de detalles; (2) La codificación latente holística descuida la independencia y las interrelaciones entre partes, cruciales para el diseño compositivo; (3) Los mecanismos de condicionamiento global carecen de controlabilidad de grano fino. Inspirados por los flujos de trabajo de diseño 3D humano, proponemos CoPart: un marco de difusión consciente de partes que descompone objetos 3D en latentes de partes contextuales para la generación coherente de múltiples partes. Este paradigma ofrece tres ventajas: i) Reduce la complejidad de codificación mediante la descomposición en partes; ii) Permite el modelado explícito de relaciones entre partes; iii) Soporta condicionamiento a nivel de parte. Además, desarrollamos una estrategia de guía mutua para ajustar modelos de difusión preentrenados en la eliminación de ruido conjunta de latentes de partes, asegurando tanto coherencia geométrica como priors de modelos base. Para permitir entrenamiento a gran escala, construimos Partverse: un novedoso conjunto de datos de partes 3D derivado de Objaverse mediante segmentación automática de mallas y anotaciones verificadas por humanos. Experimentos extensivos demuestran las capacidades superiores de CoPart en edición a nivel de parte, generación de objetos articulados y composición de escenas con una controlabilidad sin precedentes.
English
Recent advances in 3D generation have transitioned from multi-view 2D rendering approaches to 3D-native latent diffusion frameworks that exploit geometric priors in ground truth data. Despite progress, three key limitations persist: (1) Single-latent representations fail to capture complex multi-part geometries, causing detail degradation; (2) Holistic latent coding neglects part independence and interrelationships critical for compositional design; (3) Global conditioning mechanisms lack fine-grained controllability. Inspired by human 3D design workflows, we propose CoPart - a part-aware diffusion framework that decomposes 3D objects into contextual part latents for coherent multi-part generation. This paradigm offers three advantages: i) Reduces encoding complexity through part decomposition; ii) Enables explicit part relationship modeling; iii) Supports part-level conditioning. We further develop a mutual guidance strategy to fine-tune pre-trained diffusion models for joint part latent denoising, ensuring both geometric coherence and foundation model priors. To enable large-scale training, we construct Partverse - a novel 3D part dataset derived from Objaverse through automated mesh segmentation and human-verified annotations. Extensive experiments demonstrate CoPart's superior capabilities in part-level editing, articulated object generation, and scene composition with unprecedented controllability.
PDF162July 14, 2025