D'un à plusieurs : Latents contextuels de parties pour la génération 3D
From One to More: Contextual Part Latents for 3D Generation
July 11, 2025
papers.authors: Shaocong Dong, Lihe Ding, Xiao Chen, Yaokun Li, Yuxin Wang, Yucheng Wang, Qi Wang, Jaehyeok Kim, Chenjian Gao, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu
cs.AI
papers.abstract
Les récentes avancées en génération 3D ont évolué des approches de rendu 2D multi-vues vers des frameworks de diffusion latente natifs en 3D qui exploitent les priors géométriques dans les données de référence. Malgré ces progrès, trois limitations majeures persistent : (1) Les représentations à latence unique échouent à capturer des géométries multi-parties complexes, entraînant une dégradation des détails ; (2) Le codage latent holistique néglige l'indépendance et les interrelations des parties, essentielles pour la conception compositionnelle ; (3) Les mécanismes de conditionnement global manquent de contrôlabilité fine. Inspirés par les workflows de conception 3D humains, nous proposons CoPart - un framework de diffusion conscient des parties qui décompose les objets 3D en latents contextuels de parties pour une génération multi-parties cohérente. Ce paradigme offre trois avantages : i) Réduit la complexité d'encodage grâce à la décomposition en parties ; ii) Permet une modélisation explicite des relations entre parties ; iii) Supporte un conditionnement au niveau des parties. Nous développons en outre une stratégie de guidage mutuel pour affiner les modèles de diffusion pré-entraînés pour un débruitage conjoint des latents de parties, assurant à la fois la cohérence géométrique et les priors du modèle de base. Pour permettre un entraînement à grande échelle, nous construisons Partverse - un nouveau jeu de données de parties 3D dérivé d'Objaverse grâce à une segmentation automatisée de maillages et des annotations vérifiées par des humains. Des expériences approfondies démontrent les capacités supérieures de CoPart en matière d'édition au niveau des parties, de génération d'objets articulés et de composition de scènes avec une contrôlabilité sans précédent.
English
Recent advances in 3D generation have transitioned from multi-view 2D
rendering approaches to 3D-native latent diffusion frameworks that exploit
geometric priors in ground truth data. Despite progress, three key limitations
persist: (1) Single-latent representations fail to capture complex multi-part
geometries, causing detail degradation; (2) Holistic latent coding neglects
part independence and interrelationships critical for compositional design; (3)
Global conditioning mechanisms lack fine-grained controllability. Inspired by
human 3D design workflows, we propose CoPart - a part-aware diffusion framework
that decomposes 3D objects into contextual part latents for coherent multi-part
generation. This paradigm offers three advantages: i) Reduces encoding
complexity through part decomposition; ii) Enables explicit part relationship
modeling; iii) Supports part-level conditioning. We further develop a mutual
guidance strategy to fine-tune pre-trained diffusion models for joint part
latent denoising, ensuring both geometric coherence and foundation model
priors. To enable large-scale training, we construct Partverse - a novel 3D
part dataset derived from Objaverse through automated mesh segmentation and
human-verified annotations. Extensive experiments demonstrate CoPart's superior
capabilities in part-level editing, articulated object generation, and scene
composition with unprecedented controllability.