ChatPaper.aiChatPaper

Hunyuan3D-Omni: Um Framework Unificado para Geração Controlável de Ativos 3D

Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

September 25, 2025
Autores: Team Hunyuan3D, Bowen Zhang, Chunchao Guo, Haolin Liu, Hongyu Yan, Huiwen Shi, Jingwei Huang, Junlin Yu, Kunhong Li, Linus, Penghao Wang, Qingxiang Lin, Sicong Liu, Xianghui Yang, Yixuan Tang, Yunfei Zhao, Zeqiang Lai, Zhihao Liang, Zibo Zhao
cs.AI

Resumo

Avanços recentes em modelos generativos nativos 3D têm acelerado a criação de ativos para jogos, filmes e design. No entanto, a maioria dos métodos ainda depende principalmente de condicionamento por imagens ou texto e carece de controles refinados e cross-modais, o que limita a controlabilidade e a adoção prática. Para abordar essa lacuna, apresentamos o Hunyuan3D-Omni, uma estrutura unificada para geração de ativos 3D controláveis e refinados, construída sobre o Hunyuan3D 2.1. Além de imagens, o Hunyuan3D-Omni aceita nuvens de pontos, voxels, caixas delimitadoras e priors de pose esquelética como sinais de condicionamento, permitindo controle preciso sobre geometria, topologia e pose. Em vez de cabeças separadas para cada modalidade, nosso modelo unifica todos os sinais em uma única arquitetura cross-modal. Treinamos com uma estratégia de amostragem progressiva e consciente da dificuldade, que seleciona uma modalidade de controle por exemplo e tende a amostrar sinais mais difíceis (por exemplo, pose esquelética) enquanto reduz o peso de sinais mais fáceis (por exemplo, nuvens de pontos), incentivando uma fusão multimodal robusta e um tratamento gracioso de entradas ausentes. Experimentos mostram que esses controles adicionais melhoram a precisão da geração, permitem transformações conscientes da geometria e aumentam a robustez para fluxos de trabalho de produção.
English
Recent advances in 3D-native generative models have accelerated asset creation for games, film, and design. However, most methods still rely primarily on image or text conditioning and lack fine-grained, cross-modal controls, which limits controllability and practical adoption. To address this gap, we present Hunyuan3D-Omni, a unified framework for fine-grained, controllable 3D asset generation built on Hunyuan3D 2.1. In addition to images, Hunyuan3D-Omni accepts point clouds, voxels, bounding boxes, and skeletal pose priors as conditioning signals, enabling precise control over geometry, topology, and pose. Instead of separate heads for each modality, our model unifies all signals in a single cross-modal architecture. We train with a progressive, difficulty-aware sampling strategy that selects one control modality per example and biases sampling toward harder signals (e.g., skeletal pose) while downweighting easier ones (e.g., point clouds), encouraging robust multi-modal fusion and graceful handling of missing inputs. Experiments show that these additional controls improve generation accuracy, enable geometry-aware transformations, and increase robustness for production workflows.
PDF363September 26, 2025