ChatPaper.aiChatPaper

Hunyuan3D-Omni: Een Geïntegreerd Framework voor Beheersbare Generatie van 3D-Assets

Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

September 25, 2025
Auteurs: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
cs.AI

Samenvatting

Recente vooruitgang in 3D-native generatieve modellen heeft de creatie van assets voor games, films en design versneld. De meeste methoden zijn echter nog steeds voornamelijk afhankelijk van beeld- of tekstconditionering en missen fijnmazige, cross-modale controles, wat de bestuurbaarheid en praktische adoptie beperkt. Om dit gat te dichten, presenteren we Hunyuan3D-Omni, een uniform raamwerk voor fijnmazige, bestuurbare 3D-assetgeneratie, gebouwd op Hunyuan3D 2.1. Naast afbeeldingen accepteert Hunyuan3D-Omni puntenwolken, voxels, begrenzingsvakken en skeletpose-priors als conditioneringssignalen, waardoor precieze controle over geometrie, topologie en pose mogelijk wordt. In plaats van aparte heads voor elke modaliteit, verenigt ons model alle signalen in een enkele cross-modale architectuur. We trainen met een progressieve, moeilijkheidsbewuste samplingstrategie die één controlemodaliteit per voorbeeld selecteert en de sampling richting moeilijkere signalen (bijv. skeletpose) biasseert, terwijl eenvoudigere signalen (bijv. puntenwolken) worden afgezwakt, wat robuuste multi-modale fusie en elegant omgaan met ontbrekende invoer bevordert. Experimenten tonen aan dat deze aanvullende controles de generatienauwkeurigheid verbeteren, geometriebewuste transformaties mogelijk maken en de robuustheid voor productieworkflows vergroten.
English
Recent advances in 3D-native generative models have accelerated asset creation for games, film, and design. However, most methods still rely primarily on image or text conditioning and lack fine-grained, cross-modal controls, which limits controllability and practical adoption. To address this gap, we present Hunyuan3D-Omni, a unified framework for fine-grained, controllable 3D asset generation built on Hunyuan3D 2.1. In addition to images, Hunyuan3D-Omni accepts point clouds, voxels, bounding boxes, and skeletal pose priors as conditioning signals, enabling precise control over geometry, topology, and pose. Instead of separate heads for each modality, our model unifies all signals in a single cross-modal architecture. We train with a progressive, difficulty-aware sampling strategy that selects one control modality per example and biases sampling toward harder signals (e.g., skeletal pose) while downweighting easier ones (e.g., point clouds), encouraging robust multi-modal fusion and graceful handling of missing inputs. Experiments show that these additional controls improve generation accuracy, enable geometry-aware transformations, and increase robustness for production workflows.
PDF363September 26, 2025