Hunyuan-GameCraft: Generatie van hoog-dynamische interactieve gamevideo's met hybride geschiedenisconditie
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition
June 20, 2025
Auteurs: Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu
cs.AI
Samenvatting
Recente vooruitgang in diffusiegebaseerde en controleerbare videogeneratie heeft hoogwaardige en temporeel coherente videosynthese mogelijk gemaakt, wat de basis legt voor meeslepende interactieve gamingervaringen. Huidige methoden kampen echter met beperkingen op het gebied van dynamiek, algemeenheid, langetermijnconsistentie en efficiëntie, wat het vermogen om diverse gameplayvideo's te creëren beperkt. Om deze tekortkomingen aan te pakken, introduceren we Hunyuan-GameCraft, een nieuw raamwerk voor hoogdynamische interactieve videogeneratie in gameomgevingen. Om fijnmazige actiecontrole te bereiken, verenigen we standaard toetsenbord- en muisinvoer in een gedeelde camerarepresentatieruimte, wat soepele interpolatie tussen verschillende camera- en bewegingsoperaties mogelijk maakt. Vervolgens stellen we een hybride geschiedenis-geconditioneerde trainingsstrategie voor die videosequenties autoregressief uitbreidt terwijl game-scène-informatie behouden blijft. Daarnaast bereiken we modeldistillatie om de rekenefficiëntie en speelbaarheid te verbeteren, waarbij de consistentie over lange temporele sequenties behouden blijft, wat het geschikt maakt voor realtime-implementatie in complexe interactieve omgevingen. Het model wordt getraind op een grootschalige dataset bestaande uit meer dan een miljoen gameplayopnames van meer dan 100 AAA-games, wat een brede dekking en diversiteit garandeert, en vervolgens afgestemd op een zorgvuldig geannoteerde synthetische dataset om precisie en controle te verbeteren. De gecureerde game-scènedata verbetert de visuele kwaliteit, realisme en actiecontroleerbaarheid aanzienlijk. Uitgebreide experimenten tonen aan dat Hunyuan-GameCraft bestaande modellen significant overtreft, waardoor het realisme en de speelbaarheid van interactieve gamevideogeneratie worden bevorderd.
English
Recent advances in diffusion-based and controllable video generation have
enabled high-quality and temporally coherent video synthesis, laying the
groundwork for immersive interactive gaming experiences. However, current
methods face limitations in dynamics, generality, long-term consistency, and
efficiency, which limit the ability to create various gameplay videos. To
address these gaps, we introduce Hunyuan-GameCraft, a novel framework for
high-dynamic interactive video generation in game environments. To achieve
fine-grained action control, we unify standard keyboard and mouse inputs into a
shared camera representation space, facilitating smooth interpolation between
various camera and movement operations. Then we propose a hybrid
history-conditioned training strategy that extends video sequences
autoregressively while preserving game scene information. Additionally, to
enhance inference efficiency and playability, we achieve model distillation to
reduce computational overhead while maintaining consistency across long
temporal sequences, making it suitable for real-time deployment in complex
interactive environments. The model is trained on a large-scale dataset
comprising over one million gameplay recordings across over 100 AAA games,
ensuring broad coverage and diversity, then fine-tuned on a carefully annotated
synthetic dataset to enhance precision and control. The curated game scene data
significantly improves the visual fidelity, realism and action controllability.
Extensive experiments demonstrate that Hunyuan-GameCraft significantly
outperforms existing models, advancing the realism and playability of
interactive game video generation.