Von Eins zu Mehr: Kontextuelle Teil-Latents für die 3D-Generierung
From One to More: Contextual Part Latents for 3D Generation
July 11, 2025
papers.authors: Shaocong Dong, Lihe Ding, Xiao Chen, Yaokun Li, Yuxin Wang, Yucheng Wang, Qi Wang, Jaehyeok Kim, Chenjian Gao, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu
cs.AI
papers.abstract
Jüngste Fortschritte in der 3D-Generierung haben sich von Multi-View-2D-Rendering-Ansätzen zu 3D-nativen latenten Diffusionsframeworks entwickelt, die geometrische Prioritäten in Ground-Truth-Daten nutzen. Trotz dieser Fortschritte bestehen drei wesentliche Einschränkungen fort: (1) Einzelne latente Repräsentationen erfassen komplexe mehrteilige Geometrien nicht ausreichend, was zu Detailverlusten führt; (2) Holistische latente Kodierungen vernachlässigen die Teileunabhängigkeit und -beziehungen, die für das kompositionelle Design entscheidend sind; (3) Globale Konditionierungsmechanismen bieten keine feinkörnige Steuerbarkeit. Inspiriert von menschlichen 3D-Design-Workflows schlagen wir CoPart vor – ein teilbewusstes Diffusionsframework, das 3D-Objekte in kontextuelle Teil-Latents zerlegt, um eine kohärente Mehrteil-Generierung zu ermöglichen. Dieses Paradigma bietet drei Vorteile: i) Reduzierung der Kodierungskomplexität durch Teilzerlegung; ii) Explizite Modellierung von Teilbeziehungen; iii) Unterstützung von teilbezogener Konditionierung. Wir entwickeln weiterhin eine gegenseitige Leitstrategie, um vortrainierte Diffusionsmodelle für die gemeinsame Entrauschung von Teil-Latents zu verfeinern, wodurch sowohl geometrische Kohärenz als auch Prioritäten des Foundation-Modells sichergestellt werden. Um ein groß angelegtes Training zu ermöglichen, erstellen wir Partverse – einen neuartigen 3D-Teildatensatz, der aus Objaverse durch automatisierte Mesh-Segmentierung und menschlich verifizierte Annotationen abgeleitet wird. Umfangreiche Experimente demonstrieren die überlegenen Fähigkeiten von CoPart in der teilbezogenen Bearbeitung, der Generierung artikulierter Objekte und der Szenenkomposition mit bisher unerreichter Steuerbarkeit.
English
Recent advances in 3D generation have transitioned from multi-view 2D
rendering approaches to 3D-native latent diffusion frameworks that exploit
geometric priors in ground truth data. Despite progress, three key limitations
persist: (1) Single-latent representations fail to capture complex multi-part
geometries, causing detail degradation; (2) Holistic latent coding neglects
part independence and interrelationships critical for compositional design; (3)
Global conditioning mechanisms lack fine-grained controllability. Inspired by
human 3D design workflows, we propose CoPart - a part-aware diffusion framework
that decomposes 3D objects into contextual part latents for coherent multi-part
generation. This paradigm offers three advantages: i) Reduces encoding
complexity through part decomposition; ii) Enables explicit part relationship
modeling; iii) Supports part-level conditioning. We further develop a mutual
guidance strategy to fine-tune pre-trained diffusion models for joint part
latent denoising, ensuring both geometric coherence and foundation model
priors. To enable large-scale training, we construct Partverse - a novel 3D
part dataset derived from Objaverse through automated mesh segmentation and
human-verified annotations. Extensive experiments demonstrate CoPart's superior
capabilities in part-level editing, articulated object generation, and scene
composition with unprecedented controllability.