ChatPaper.aiChatPaper

De Um para Muitos: Latentes Contextuais de Partes para Geração 3D

From One to More: Contextual Part Latents for 3D Generation

July 11, 2025
Autores: Shaocong Dong, Lihe Ding, Xiao Chen, Yaokun Li, Yuxin Wang, Yucheng Wang, Qi Wang, Jaehyeok Kim, Chenjian Gao, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu
cs.AI

Resumo

Os recentes avanços na geração 3D evoluíram de abordagens baseadas em renderização 2D de múltiplas visões para frameworks de difusão latente nativamente 3D que exploram priors geométricos em dados de referência. Apesar do progresso, três limitações principais persistem: (1) Representações de latente único falham em capturar geometrias complexas de múltiplas partes, causando degradação de detalhes; (2) A codificação latente holística negligencia a independência e as inter-relações entre partes, cruciais para o design composicional; (3) Mecanismos de condicionamento global carecem de controlabilidade refinada. Inspirados pelos fluxos de trabalho humanos de design 3D, propomos o CoPart - um framework de difusão consciente de partes que decompõe objetos 3D em latentes contextuais de partes para geração coerente de múltiplas partes. Esse paradigma oferece três vantagens: i) Reduz a complexidade de codificação por meio da decomposição de partes; ii) Permite a modelagem explícita de relações entre partes; iii) Suporta condicionamento em nível de parte. Desenvolvemos ainda uma estratégia de orientação mútua para ajustar modelos de difusão pré-treinados para desruído conjunto de latentes de partes, garantindo tanto coerência geométrica quanto os priors do modelo base. Para possibilitar treinamento em larga escala, construímos o Partverse - um novo conjunto de dados 3D de partes derivado do Objaverse por meio de segmentação automática de malhas e anotações verificadas por humanos. Experimentos extensivos demonstram as capacidades superiores do CoPart em edição em nível de parte, geração de objetos articulados e composição de cenas com uma controlabilidade sem precedentes.
English
Recent advances in 3D generation have transitioned from multi-view 2D rendering approaches to 3D-native latent diffusion frameworks that exploit geometric priors in ground truth data. Despite progress, three key limitations persist: (1) Single-latent representations fail to capture complex multi-part geometries, causing detail degradation; (2) Holistic latent coding neglects part independence and interrelationships critical for compositional design; (3) Global conditioning mechanisms lack fine-grained controllability. Inspired by human 3D design workflows, we propose CoPart - a part-aware diffusion framework that decomposes 3D objects into contextual part latents for coherent multi-part generation. This paradigm offers three advantages: i) Reduces encoding complexity through part decomposition; ii) Enables explicit part relationship modeling; iii) Supports part-level conditioning. We further develop a mutual guidance strategy to fine-tune pre-trained diffusion models for joint part latent denoising, ensuring both geometric coherence and foundation model priors. To enable large-scale training, we construct Partverse - a novel 3D part dataset derived from Objaverse through automated mesh segmentation and human-verified annotations. Extensive experiments demonstrate CoPart's superior capabilities in part-level editing, articulated object generation, and scene composition with unprecedented controllability.
PDF243July 14, 2025