Hunyuan3D-Omni: Унифицированная структура для управляемой генерации 3D-ассетов
Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets
September 25, 2025
Авторы: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
cs.AI
Аннотация
Последние достижения в области генеративных моделей, изначально ориентированных на 3D, ускорили создание ресурсов для игр, кино и дизайна. Однако большинство методов по-прежнему в основном полагаются на условия, заданные изображениями или текстом, и не имеют детализированного кросс-модального управления, что ограничивает контролируемость и практическое применение. Для устранения этого пробела мы представляем Hunyuan3D-Omni — унифицированную платформу для детализированного и контролируемого создания 3D-ресурсов, основанную на Hunyuan3D 2.1. В дополнение к изображениям, Hunyuan3D-Omni принимает облака точек, воксели, ограничивающие рамки и априорные данные о скелетной позе в качестве управляющих сигналов, обеспечивая точный контроль над геометрией, топологией и позой. Вместо отдельных модулей для каждой модальности наша модель объединяет все сигналы в единой кросс-модальной архитектуре. Мы обучаем модель с использованием прогрессивной стратегии выборки, учитывающей сложность, которая выбирает одну управляющую модальность для каждого примера и смещает выборку в сторону более сложных сигналов (например, скелетной позы), снижая вес более простых (например, облаков точек), что способствует устойчивому мультимодальному слиянию и корректной обработке отсутствующих входных данных. Эксперименты показывают, что дополнительные элементы управления повышают точность генерации, позволяют выполнять геометрически осознанные преобразования и увеличивают устойчивость в производственных процессах.
English
Recent advances in 3D-native generative models have accelerated asset
creation for games, film, and design. However, most methods still rely
primarily on image or text conditioning and lack fine-grained, cross-modal
controls, which limits controllability and practical adoption. To address this
gap, we present Hunyuan3D-Omni, a unified framework for fine-grained,
controllable 3D asset generation built on Hunyuan3D 2.1. In addition to images,
Hunyuan3D-Omni accepts point clouds, voxels, bounding boxes, and skeletal pose
priors as conditioning signals, enabling precise control over geometry,
topology, and pose. Instead of separate heads for each modality, our model
unifies all signals in a single cross-modal architecture. We train with a
progressive, difficulty-aware sampling strategy that selects one control
modality per example and biases sampling toward harder signals (e.g., skeletal
pose) while downweighting easier ones (e.g., point clouds), encouraging robust
multi-modal fusion and graceful handling of missing inputs. Experiments show
that these additional controls improve generation accuracy, enable
geometry-aware transformations, and increase robustness for production
workflows.