Hunyuan3D-Omni: Un Framework Unificato per la Generazione Controllabile di Asset 3D
Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
September 25, 2025
Autori: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
cs.AI
Abstract
I recenti progressi nei modelli generativi nativi 3D hanno accelerato la creazione di asset per giochi, film e design. Tuttavia, la maggior parte dei metodi si basa ancora principalmente sul condizionamento tramite immagini o testo e manca di controlli granulari e cross-modali, il che limita la controllabilità e l'adozione pratica. Per colmare questa lacuna, presentiamo Hunyuan3D-Omni, un framework unificato per la generazione di asset 3D granulari e controllabili, basato su Hunyuan3D 2.1. Oltre alle immagini, Hunyuan3D-Omni accetta nuvole di punti, voxel, bounding box e prior di pose scheletriche come segnali di condizionamento, consentendo un controllo preciso su geometria, topologia e pose. Invece di utilizzare testine separate per ogni modalità, il nostro modello unifica tutti i segnali in un'unica architettura cross-modale. Addestriamo il modello con una strategia di campionamento progressiva e consapevole della difficoltà, che seleziona una modalità di controllo per esempio e favorisce il campionamento verso segnali più complessi (ad esempio, pose scheletriche) mentre riduce il peso di quelli più semplici (ad esempio, nuvole di punti), promuovendo una fusione multi-modale robusta e una gestione elegante degli input mancanti. Gli esperimenti dimostrano che questi controlli aggiuntivi migliorano l'accuratezza della generazione, abilitano trasformazioni consapevoli della geometria e aumentano la robustezza per i flussi di lavoro di produzione.
English
Recent advances in 3D-native generative models have accelerated asset
creation for games, film, and design. However, most methods still rely
primarily on image or text conditioning and lack fine-grained, cross-modal
controls, which limits controllability and practical adoption. To address this
gap, we present Hunyuan3D-Omni, a unified framework for fine-grained,
controllable 3D asset generation built on Hunyuan3D 2.1. In addition to images,
Hunyuan3D-Omni accepts point clouds, voxels, bounding boxes, and skeletal pose
priors as conditioning signals, enabling precise control over geometry,
topology, and pose. Instead of separate heads for each modality, our model
unifies all signals in a single cross-modal architecture. We train with a
progressive, difficulty-aware sampling strategy that selects one control
modality per example and biases sampling toward harder signals (e.g., skeletal
pose) while downweighting easier ones (e.g., point clouds), encouraging robust
multi-modal fusion and graceful handling of missing inputs. Experiments show
that these additional controls improve generation accuracy, enable
geometry-aware transformations, and increase robustness for production
workflows.