Hunyuan3D-Omni: Ein einheitliches Framework für die kontrollierbare Erzeugung von 3D-Assets
Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
September 25, 2025
papers.authors: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
cs.AI
papers.abstract
Jüngste Fortschritte bei 3D-nativen generativen Modellen haben die Erstellung von Assets für Spiele, Filme und Design beschleunigt. Die meisten Methoden stützen sich jedoch nach wie vor hauptsächlich auf Bild- oder Textkonditionierung und verfügen nicht über fein abgestimmte, cross-modale Steuerungen, was die Kontrollierbarkeit und praktische Anwendung einschränkt. Um diese Lücke zu schließen, präsentieren wir Hunyuan3D-Omni, ein einheitliches Framework für die fein abgestimmte, kontrollierbare Erzeugung von 3D-Assets, das auf Hunyuan3D 2.1 basiert. Neben Bildern akzeptiert Hunyuan3D-Omni Punktwolken, Voxel, Begrenzungsrahmen und Skelettposen-Priors als Konditionierungssignale, wodurch eine präzise Steuerung von Geometrie, Topologie und Pose ermöglicht wird. Anstatt separate Köpfe für jede Modalität zu verwenden, vereint unser Modell alle Signale in einer einzigen cross-modalen Architektur. Wir trainieren mit einer progressiven, schwierigkeitsbewussten Sampling-Strategie, die pro Beispiel eine Steuermodalität auswählt und das Sampling auf schwierigere Signale (z. B. Skelettposen) ausrichtet, während einfachere Signale (z. B. Punktwolken) heruntergewichtet werden, um eine robuste multi-modale Fusion und einen eleganten Umgang mit fehlenden Eingaben zu fördern. Experimente zeigen, dass diese zusätzlichen Steuerungen die Generierungsgenauigkeit verbessern, geometrie-bewusste Transformationen ermöglichen und die Robustheit für Produktionsworkflows erhöhen.
English
Recent advances in 3D-native generative models have accelerated asset
creation for games, film, and design. However, most methods still rely
primarily on image or text conditioning and lack fine-grained, cross-modal
controls, which limits controllability and practical adoption. To address this
gap, we present Hunyuan3D-Omni, a unified framework for fine-grained,
controllable 3D asset generation built on Hunyuan3D 2.1. In addition to images,
Hunyuan3D-Omni accepts point clouds, voxels, bounding boxes, and skeletal pose
priors as conditioning signals, enabling precise control over geometry,
topology, and pose. Instead of separate heads for each modality, our model
unifies all signals in a single cross-modal architecture. We train with a
progressive, difficulty-aware sampling strategy that selects one control
modality per example and biases sampling toward harder signals (e.g., skeletal
pose) while downweighting easier ones (e.g., point clouds), encouraging robust
multi-modal fusion and graceful handling of missing inputs. Experiments show
that these additional controls improve generation accuracy, enable
geometry-aware transformations, and increase robustness for production
workflows.