ChatPaper.aiChatPaper

Hunyuan-GameCraft: Geração de Vídeos de Jogos Interativos de Alta Dinâmica com Condicionamento Híbrido de Histórico

Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition

June 20, 2025
Autores: Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu
cs.AI

Resumo

Avanços recentes na geração de vídeos baseada em difusão e controlável têm possibilitado a síntese de vídeos de alta qualidade e coerência temporal, estabelecendo as bases para experiências imersivas de jogos interativos. No entanto, os métodos atuais enfrentam limitações em dinâmica, generalidade, consistência de longo prazo e eficiência, o que restringe a capacidade de criar diversos vídeos de jogabilidade. Para abordar essas lacunas, introduzimos o Hunyuan-GameCraft, uma nova estrutura para geração de vídeos interativos de alta dinâmica em ambientes de jogos. Para alcançar um controle de ação refinado, unificamos entradas padrão de teclado e mouse em um espaço de representação de câmera compartilhado, facilitando a interpolação suave entre várias operações de câmera e movimento. Em seguida, propomos uma estratégia de treinamento híbrida condicionada ao histórico que estende sequências de vídeo de forma autoregressiva, preservando as informações da cena do jogo. Além disso, para melhorar a eficiência de inferência e a jogabilidade, realizamos a destilação do modelo para reduzir a sobrecarga computacional, mantendo a consistência em longas sequências temporais, tornando-o adequado para implantação em tempo real em ambientes interativos complexos. O modelo é treinado em um conjunto de dados em larga escala composto por mais de um milhão de gravações de jogabilidade em mais de 100 jogos AAA, garantindo ampla cobertura e diversidade, e então ajustado em um conjunto de dados sintéticos cuidadosamente anotados para aprimorar a precisão e o controle. Os dados de cena de jogo curados melhoram significativamente a fidelidade visual, o realismo e a controlabilidade da ação. Experimentos extensivos demonstram que o Hunyuan-GameCraft supera significativamente os modelos existentes, avançando o realismo e a jogabilidade na geração de vídeos interativos de jogos.
English
Recent advances in diffusion-based and controllable video generation have enabled high-quality and temporally coherent video synthesis, laying the groundwork for immersive interactive gaming experiences. However, current methods face limitations in dynamics, generality, long-term consistency, and efficiency, which limit the ability to create various gameplay videos. To address these gaps, we introduce Hunyuan-GameCraft, a novel framework for high-dynamic interactive video generation in game environments. To achieve fine-grained action control, we unify standard keyboard and mouse inputs into a shared camera representation space, facilitating smooth interpolation between various camera and movement operations. Then we propose a hybrid history-conditioned training strategy that extends video sequences autoregressively while preserving game scene information. Additionally, to enhance inference efficiency and playability, we achieve model distillation to reduce computational overhead while maintaining consistency across long temporal sequences, making it suitable for real-time deployment in complex interactive environments. The model is trained on a large-scale dataset comprising over one million gameplay recordings across over 100 AAA games, ensuring broad coverage and diversity, then fine-tuned on a carefully annotated synthetic dataset to enhance precision and control. The curated game scene data significantly improves the visual fidelity, realism and action controllability. Extensive experiments demonstrate that Hunyuan-GameCraft significantly outperforms existing models, advancing the realism and playability of interactive game video generation.
PDF523June 23, 2025