От одного к множеству: контекстуальные латентные переменные частей для 3D-генерации
From One to More: Contextual Part Latents for 3D Generation
July 11, 2025
Авторы: Shaocong Dong, Lihe Ding, Xiao Chen, Yaokun Li, Yuxin Wang, Yucheng Wang, Qi Wang, Jaehyeok Kim, Chenjian Gao, Zhanpeng Huang, Zibin Wang, Tianfan Xue, Dan Xu
cs.AI
Аннотация
Последние достижения в области 3D-генерации перешли от подходов, основанных на рендеринге 2D-изображений с нескольких ракурсов, к 3D-нативным фреймворкам латентной диффузии, которые используют геометрические априорные данные из эталонных данных. Несмотря на прогресс, сохраняются три ключевых ограничения: (1) Единые латентные представления не способны охватывать сложные многокомпонентные геометрии, что приводит к ухудшению детализации; (2) Холистическое латентное кодирование игнорирует независимость и взаимосвязи частей, критически важные для композиционного дизайна; (3) Глобальные механизмы кондиционирования не обеспечивают детализированной управляемости. Вдохновленные рабочими процессами человеческого 3D-дизайна, мы предлагаем CoPart — фреймворк диффузии с учетом частей, который разлагает 3D-объекты на контекстные латентные представления частей для согласованной генерации многокомпонентных объектов. Этот подход предлагает три преимущества: i) Снижает сложность кодирования за счет декомпозиции частей; ii) Позволяет явно моделировать взаимосвязи частей; iii) Поддерживает кондиционирование на уровне частей. Мы также разрабатываем стратегию взаимного руководства для тонкой настройки предварительно обученных моделей диффузии с целью совместного удаления шума в латентных представлениях частей, обеспечивая как геометрическую согласованность, так и априорные данные базовой модели. Для обеспечения масштабируемого обучения мы создаем Partverse — новый набор данных 3D-частей, полученный из Objaverse с помощью автоматической сегментации мешей и аннотаций, проверенных человеком. Многочисленные эксперименты демонстрируют превосходные возможности CoPart в редактировании на уровне частей, генерации сочлененных объектов и композиции сцен с беспрецедентной управляемостью.
English
Recent advances in 3D generation have transitioned from multi-view 2D
rendering approaches to 3D-native latent diffusion frameworks that exploit
geometric priors in ground truth data. Despite progress, three key limitations
persist: (1) Single-latent representations fail to capture complex multi-part
geometries, causing detail degradation; (2) Holistic latent coding neglects
part independence and interrelationships critical for compositional design; (3)
Global conditioning mechanisms lack fine-grained controllability. Inspired by
human 3D design workflows, we propose CoPart - a part-aware diffusion framework
that decomposes 3D objects into contextual part latents for coherent multi-part
generation. This paradigm offers three advantages: i) Reduces encoding
complexity through part decomposition; ii) Enables explicit part relationship
modeling; iii) Supports part-level conditioning. We further develop a mutual
guidance strategy to fine-tune pre-trained diffusion models for joint part
latent denoising, ensuring both geometric coherence and foundation model
priors. To enable large-scale training, we construct Partverse - a novel 3D
part dataset derived from Objaverse through automated mesh segmentation and
human-verified annotations. Extensive experiments demonstrate CoPart's superior
capabilities in part-level editing, articulated object generation, and scene
composition with unprecedented controllability.