Hunyuan3D-Omni: Un Marco Unificado para la Generación Controlable de Activos 3D
Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
September 25, 2025
Autores: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
cs.AI
Resumen
Los recientes avances en modelos generativos nativos en 3D han acelerado la creación de activos para juegos, cine y diseño. Sin embargo, la mayoría de los métodos aún dependen principalmente de condicionamiento basado en imágenes o texto y carecen de controles detallados y multimodales, lo que limita la controlabilidad y la adopción práctica. Para abordar esta brecha, presentamos Hunyuan3D-Omni, un marco unificado para la generación de activos 3D detallados y controlables, construido sobre Hunyuan3D 2.1. Además de imágenes, Hunyuan3D-Omni acepta nubes de puntos, vóxeles, cajas delimitadoras y poses esqueléticas como señales de condicionamiento, permitiendo un control preciso sobre la geometría, topología y pose. En lugar de utilizar cabezales separados para cada modalidad, nuestro modelo unifica todas las señales en una única arquitectura multimodal. Entrenamos con una estrategia de muestreo progresivo y consciente de la dificultad que selecciona una modalidad de control por ejemplo y sesga el muestreo hacia señales más difíciles (por ejemplo, poses esqueléticas) mientras reduce el peso de las más sencillas (por ejemplo, nubes de puntos), fomentando una fusión multimodal robusta y un manejo elegante de entradas faltantes. Los experimentos muestran que estos controles adicionales mejoran la precisión en la generación, permiten transformaciones conscientes de la geometría y aumentan la robustez en los flujos de trabajo de producción.
English
Recent advances in 3D-native generative models have accelerated asset
creation for games, film, and design. However, most methods still rely
primarily on image or text conditioning and lack fine-grained, cross-modal
controls, which limits controllability and practical adoption. To address this
gap, we present Hunyuan3D-Omni, a unified framework for fine-grained,
controllable 3D asset generation built on Hunyuan3D 2.1. In addition to images,
Hunyuan3D-Omni accepts point clouds, voxels, bounding boxes, and skeletal pose
priors as conditioning signals, enabling precise control over geometry,
topology, and pose. Instead of separate heads for each modality, our model
unifies all signals in a single cross-modal architecture. We train with a
progressive, difficulty-aware sampling strategy that selects one control
modality per example and biases sampling toward harder signals (e.g., skeletal
pose) while downweighting easier ones (e.g., point clouds), encouraging robust
multi-modal fusion and graceful handling of missing inputs. Experiments show
that these additional controls improve generation accuracy, enable
geometry-aware transformations, and increase robustness for production
workflows.