Hunyuan-GameCraft: Hochdynamische interaktive Spielvideogenerierung mit hybridem Geschichtsverlauf
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition
June 20, 2025
Autoren: Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu
cs.AI
Zusammenfassung
Jüngste Fortschritte in der diffusionsbasierten und kontrollierbaren Videogenerierung haben die Synthese hochwertiger und zeitlich kohärenter Videos ermöglicht, wodurch die Grundlage für immersive interaktive Spielerlebnisse geschaffen wurde. Allerdings stoßen aktuelle Methoden an Grenzen in Bezug auf Dynamik, Allgemeingültigkeit, langfristige Konsistenz und Effizienz, was die Fähigkeit zur Erstellung verschiedener Gameplay-Videos einschränkt. Um diese Lücken zu schließen, stellen wir Hunyuan-GameCraft vor, ein neuartiges Framework für die hochdynamische interaktive Videogenerierung in Spielumgebungen. Um eine fein abgestimmte Aktionskontrolle zu erreichen, vereinheitlichen wir Standard-Tastatur- und Mauseingaben in einem gemeinsamen Kameradarstellungsraum, was eine nahtlose Interpolation zwischen verschiedenen Kamerabewegungen und -operationen ermöglicht. Anschließend schlagen wir eine hybride, geschichtsbasierte Trainingsstrategie vor, die Videosequenzen autoregressiv erweitert, während gleichzeitig Spielszenerieinformationen erhalten bleiben. Zusätzlich erreichen wir zur Steigerung der Inferenzeffizienz und Spielbarkeit eine Modell-Destillation, um den Rechenaufwand zu reduzieren, während die Konsistenz über lange Zeitsequenzen hinweg gewährleistet wird, was es für den Einsatz in Echtzeit in komplexen interaktiven Umgebungen geeignet macht. Das Modell wird auf einem umfangreichen Datensatz trainiert, der über eine Million Gameplay-Aufzeichnungen aus mehr als 100 AAA-Spielen umfasst, wodurch eine breite Abdeckung und Vielfalt sichergestellt wird. Anschließend wird es auf einem sorgfältig annotierten synthetischen Datensatz feinabgestimmt, um Präzision und Kontrolle zu verbessern. Die kuratierten Spielszeneriedaten verbessern die visuelle Treue, den Realismus und die Aktionssteuerbarkeit erheblich. Umfangreiche Experimente zeigen, dass Hunyuan-GameCraft bestehende Modelle deutlich übertrifft und den Realismus und die Spielbarkeit der interaktiven Spielvideogenerierung vorantreibt.
English
Recent advances in diffusion-based and controllable video generation have
enabled high-quality and temporally coherent video synthesis, laying the
groundwork for immersive interactive gaming experiences. However, current
methods face limitations in dynamics, generality, long-term consistency, and
efficiency, which limit the ability to create various gameplay videos. To
address these gaps, we introduce Hunyuan-GameCraft, a novel framework for
high-dynamic interactive video generation in game environments. To achieve
fine-grained action control, we unify standard keyboard and mouse inputs into a
shared camera representation space, facilitating smooth interpolation between
various camera and movement operations. Then we propose a hybrid
history-conditioned training strategy that extends video sequences
autoregressively while preserving game scene information. Additionally, to
enhance inference efficiency and playability, we achieve model distillation to
reduce computational overhead while maintaining consistency across long
temporal sequences, making it suitable for real-time deployment in complex
interactive environments. The model is trained on a large-scale dataset
comprising over one million gameplay recordings across over 100 AAA games,
ensuring broad coverage and diversity, then fine-tuned on a carefully annotated
synthetic dataset to enhance precision and control. The curated game scene data
significantly improves the visual fidelity, realism and action controllability.
Extensive experiments demonstrate that Hunyuan-GameCraft significantly
outperforms existing models, advancing the realism and playability of
interactive game video generation.