Hunyuan-GameCraft: Generazione di Video di Giochi Interattivi ad Alta Dinamica con Condizione Ibrida della Cronologia
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition
June 20, 2025
Autori: Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu
cs.AI
Abstract
I recenti progressi nella generazione di video basata su diffusione e controllabile hanno consentito la sintesi di video di alta qualità e temporalmente coerenti, gettando le basi per esperienze di gioco interattive e immersive. Tuttavia, i metodi attuali presentano limitazioni in termini di dinamicità, generalità, coerenza a lungo termine ed efficienza, che ostacolano la creazione di vari video di gameplay. Per colmare queste lacune, introduciamo Hunyuan-GameCraft, un nuovo framework per la generazione di video interattivi ad alta dinamicità in ambienti di gioco. Per ottenere un controllo granulare delle azioni, unifichiamo gli input standard da tastiera e mouse in uno spazio di rappresentazione condiviso della telecamera, facilitando un'interpolazione fluida tra varie operazioni di movimento e della telecamera. Proponiamo inoltre una strategia di addestramento ibrida condizionata dalla cronologia, che estende le sequenze video in modo autoregressivo preservando le informazioni della scena di gioco. Inoltre, per migliorare l'efficienza inferenziale e la giocabilità, otteniamo una distillazione del modello per ridurre il sovraccarico computazionale mantenendo la coerenza su lunghe sequenze temporali, rendendolo adatto alla distribuzione in tempo reale in ambienti interattivi complessi. Il modello è addestrato su un ampio dataset che comprende oltre un milione di registrazioni di gameplay provenienti da più di 100 giochi AAA, garantendo un'ampia copertura e diversità, ed è poi affinato su un dataset sintetico accuratamente annotato per migliorare precisione e controllo. I dati curati delle scene di gioco migliorano significativamente la fedeltà visiva, il realismo e la controllabilità delle azioni. Esperimenti estensivi dimostrano che Hunyuan-GameCraft supera significativamente i modelli esistenti, avanzando il realismo e la giocabilità nella generazione di video di gioco interattivi.
English
Recent advances in diffusion-based and controllable video generation have
enabled high-quality and temporally coherent video synthesis, laying the
groundwork for immersive interactive gaming experiences. However, current
methods face limitations in dynamics, generality, long-term consistency, and
efficiency, which limit the ability to create various gameplay videos. To
address these gaps, we introduce Hunyuan-GameCraft, a novel framework for
high-dynamic interactive video generation in game environments. To achieve
fine-grained action control, we unify standard keyboard and mouse inputs into a
shared camera representation space, facilitating smooth interpolation between
various camera and movement operations. Then we propose a hybrid
history-conditioned training strategy that extends video sequences
autoregressively while preserving game scene information. Additionally, to
enhance inference efficiency and playability, we achieve model distillation to
reduce computational overhead while maintaining consistency across long
temporal sequences, making it suitable for real-time deployment in complex
interactive environments. The model is trained on a large-scale dataset
comprising over one million gameplay recordings across over 100 AAA games,
ensuring broad coverage and diversity, then fine-tuned on a carefully annotated
synthetic dataset to enhance precision and control. The curated game scene data
significantly improves the visual fidelity, realism and action controllability.
Extensive experiments demonstrate that Hunyuan-GameCraft significantly
outperforms existing models, advancing the realism and playability of
interactive game video generation.