Hunyuan3D-Omni : Un cadre unifié pour la génération contrôlée d'actifs 3D
Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
September 25, 2025
papers.authors: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
cs.AI
papers.abstract
Les récentes avancées dans les modèles génératifs natifs 3D ont accéléré la création d'assets pour les jeux, les films et le design. Cependant, la plupart des méthodes reposent encore principalement sur un conditionnement par image ou texte et manquent de contrôles fins et intermodaux, ce qui limite la contrôlabilité et l'adoption pratique. Pour combler cette lacune, nous présentons Hunyuan3D-Omni, un cadre unifié pour la génération d'assets 3D fins et contrôlables, basé sur Hunyuan3D 2.1. En plus des images, Hunyuan3D-Omni accepte des nuages de points, des voxels, des boîtes englobantes et des poses squelettiques comme signaux de conditionnement, permettant un contrôle précis sur la géométrie, la topologie et la pose. Au lieu de têtes séparées pour chaque modalité, notre modèle unifie tous les signaux dans une architecture intermodale unique. Nous entraînons avec une stratégie d'échantillonnage progressive et consciente de la difficulté, qui sélectionne une modalité de contrôle par exemple et biaise l'échantillonnage vers les signaux plus difficiles (par exemple, la pose squelettique) tout en réduisant le poids des signaux plus faciles (par exemple, les nuages de points), encourageant ainsi une fusion multimodale robuste et une gestion élégante des entrées manquantes. Les expériences montrent que ces contrôles supplémentaires améliorent la précision de la génération, permettent des transformations conscientes de la géométrie et augmentent la robustesse pour les workflows de production.
English
Recent advances in 3D-native generative models have accelerated asset
creation for games, film, and design. However, most methods still rely
primarily on image or text conditioning and lack fine-grained, cross-modal
controls, which limits controllability and practical adoption. To address this
gap, we present Hunyuan3D-Omni, a unified framework for fine-grained,
controllable 3D asset generation built on Hunyuan3D 2.1. In addition to images,
Hunyuan3D-Omni accepts point clouds, voxels, bounding boxes, and skeletal pose
priors as conditioning signals, enabling precise control over geometry,
topology, and pose. Instead of separate heads for each modality, our model
unifies all signals in a single cross-modal architecture. We train with a
progressive, difficulty-aware sampling strategy that selects one control
modality per example and biases sampling toward harder signals (e.g., skeletal
pose) while downweighting easier ones (e.g., point clouds), encouraging robust
multi-modal fusion and graceful handling of missing inputs. Experiments show
that these additional controls improve generation accuracy, enable
geometry-aware transformations, and increase robustness for production
workflows.