Hunyuan-GameCraft : Génération de vidéos de jeux interactifs hautement dynamiques avec conditionnement hybride sur l'historique
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition
June 20, 2025
Auteurs: Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu
cs.AI
Résumé
Les récentes avancées dans la génération de vidéos basée sur la diffusion et contrôlable ont permis une synthèse vidéo de haute qualité et cohérente temporellement, posant les bases pour des expériences de jeu immersives et interactives. Cependant, les méthodes actuelles présentent des limitations en termes de dynamique, de généralité, de cohérence à long terme et d'efficacité, ce qui restreint la capacité à créer diverses vidéos de gameplay. Pour combler ces lacunes, nous introduisons Hunyuan-GameCraft, un nouveau cadre pour la génération de vidéos interactives à haute dynamique dans des environnements de jeu. Pour parvenir à un contrôle précis des actions, nous unifions les entrées standard du clavier et de la souris dans un espace de représentation de caméra partagé, facilitant une interpolation fluide entre diverses opérations de caméra et de mouvement. Ensuite, nous proposons une stratégie d'entraînement hybride conditionnée par l'historique, qui étend les séquences vidéo de manière autorégressive tout en préservant les informations de la scène de jeu. De plus, pour améliorer l'efficacité de l'inférence et la jouabilité, nous réalisons une distillation de modèle afin de réduire la surcharge computationnelle tout en maintenant la cohérence sur de longues séquences temporelles, rendant le modèle adapté à un déploiement en temps réel dans des environnements interactifs complexes. Le modèle est entraîné sur un vaste ensemble de données comprenant plus d'un million d'enregistrements de gameplay provenant de plus de 100 jeux AAA, assurant une couverture large et diversifiée, puis affiné sur un ensemble de données synthétiques soigneusement annoté pour améliorer la précision et le contrôle. Les données de scènes de jeu soigneusement sélectionnées améliorent significativement la fidélité visuelle, le réalisme et la contrôlabilité des actions. Des expériences approfondies démontrent que Hunyuan-GameCraft surpasse significativement les modèles existants, faisant progresser le réalisme et la jouabilité de la génération de vidéos de jeu interactives.
English
Recent advances in diffusion-based and controllable video generation have
enabled high-quality and temporally coherent video synthesis, laying the
groundwork for immersive interactive gaming experiences. However, current
methods face limitations in dynamics, generality, long-term consistency, and
efficiency, which limit the ability to create various gameplay videos. To
address these gaps, we introduce Hunyuan-GameCraft, a novel framework for
high-dynamic interactive video generation in game environments. To achieve
fine-grained action control, we unify standard keyboard and mouse inputs into a
shared camera representation space, facilitating smooth interpolation between
various camera and movement operations. Then we propose a hybrid
history-conditioned training strategy that extends video sequences
autoregressively while preserving game scene information. Additionally, to
enhance inference efficiency and playability, we achieve model distillation to
reduce computational overhead while maintaining consistency across long
temporal sequences, making it suitable for real-time deployment in complex
interactive environments. The model is trained on a large-scale dataset
comprising over one million gameplay recordings across over 100 AAA games,
ensuring broad coverage and diversity, then fine-tuned on a carefully annotated
synthetic dataset to enhance precision and control. The curated game scene data
significantly improves the visual fidelity, realism and action controllability.
Extensive experiments demonstrate that Hunyuan-GameCraft significantly
outperforms existing models, advancing the realism and playability of
interactive game video generation.