Da Uno a Molti: Parti Latenti Contestuali per la Generazione 3D
From One to More: Contextual Part Latents for 3D Generation
July 11, 2025
Autori: Shaocong Dong, Lihe Ding, Xiao Chen, Yaokun Li, Yuxin Wang, Yucheng Wang, Qi Wang, Jaehyeok Kim, Chenjian Gao, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu
cs.AI
Abstract
I recenti progressi nella generazione 3D hanno segnato una transizione dagli approcci di rendering 2D multi-vista a framework di diffusione latente nativi 3D che sfruttano prior geometriche nei dati di riferimento. Nonostante i progressi, persistono tre limitazioni chiave: (1) Le rappresentazioni a singolo latente non riescono a catturare geometrie complesse multi-parte, causando un degrado dei dettagli; (2) La codifica latente olistica trascura l'indipendenza e le interrelazioni delle parti, cruciali per il design compositivo; (3) I meccanismi di condizionamento globale mancano di controllabilità fine-granulare. Ispirati dai flussi di lavoro umani nel design 3D, proponiamo CoPart - un framework di diffusione consapevole delle parti che scompone oggetti 3D in latenti contestuali delle parti per una generazione multi-parte coerente. Questo paradigma offre tre vantaggi: i) Riduce la complessità di codifica attraverso la scomposizione delle parti; ii) Consente una modellazione esplicita delle relazioni tra le parti; iii) Supporta il condizionamento a livello di parte. Abbiamo inoltre sviluppato una strategia di guida reciproca per affinare modelli di diffusione pre-addestrati per il denoising congiunto dei latenti delle parti, garantendo sia coerenza geometrica che prior dei modelli di base. Per abilitare l'addestramento su larga scala, abbiamo costruito Partverse - un nuovo dataset 3D di parti derivato da Objaverse attraverso segmentazione automatica delle mesh e annotazioni verificate da esseri umani. Esperimenti estensivi dimostrano le capacità superiori di CoPart nell'editing a livello di parte, nella generazione di oggetti articolati e nella composizione di scene con una controllabilità senza precedenti.
English
Recent advances in 3D generation have transitioned from multi-view 2D
rendering approaches to 3D-native latent diffusion frameworks that exploit
geometric priors in ground truth data. Despite progress, three key limitations
persist: (1) Single-latent representations fail to capture complex multi-part
geometries, causing detail degradation; (2) Holistic latent coding neglects
part independence and interrelationships critical for compositional design; (3)
Global conditioning mechanisms lack fine-grained controllability. Inspired by
human 3D design workflows, we propose CoPart - a part-aware diffusion framework
that decomposes 3D objects into contextual part latents for coherent multi-part
generation. This paradigm offers three advantages: i) Reduces encoding
complexity through part decomposition; ii) Enables explicit part relationship
modeling; iii) Supports part-level conditioning. We further develop a mutual
guidance strategy to fine-tune pre-trained diffusion models for joint part
latent denoising, ensuring both geometric coherence and foundation model
priors. To enable large-scale training, we construct Partverse - a novel 3D
part dataset derived from Objaverse through automated mesh segmentation and
human-verified annotations. Extensive experiments demonstrate CoPart's superior
capabilities in part-level editing, articulated object generation, and scene
composition with unprecedented controllability.