Hunyuan-GameCraft: Generación de Videos de Juegos Interactivos de Alta Dinámica con Condición Híbrida de Historial
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition
June 20, 2025
Autores: Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu
cs.AI
Resumen
Los recientes avances en la generación de videos basada en difusión y controlable han permitido la síntesis de videos de alta calidad y coherencia temporal, sentando las bases para experiencias de juego inmersivas e interactivas. Sin embargo, los métodos actuales enfrentan limitaciones en dinámica, generalidad, consistencia a largo plazo y eficiencia, lo que restringe la capacidad de crear diversos videos de juego. Para abordar estas brechas, presentamos Hunyuan-GameCraft, un marco novedoso para la generación de videos interactivos de alta dinámica en entornos de juego. Para lograr un control de acciones de grano fino, unificamos las entradas estándar de teclado y mouse en un espacio de representación de cámara compartido, facilitando una interpolación suave entre diversas operaciones de cámara y movimiento. Luego, proponemos una estrategia de entrenamiento híbrida condicionada por el historial que extiende secuencias de video de manera autorregresiva mientras preserva la información de la escena del juego. Además, para mejorar la eficiencia de inferencia y la jugabilidad, logramos la destilación del modelo para reducir la sobrecarga computacional manteniendo la consistencia en secuencias temporales largas, haciéndolo adecuado para su implementación en tiempo real en entornos interactivos complejos. El modelo se entrena en un conjunto de datos a gran escala que comprende más de un millón de grabaciones de juego en más de 100 juegos AAA, asegurando una amplia cobertura y diversidad, y luego se ajusta finamente en un conjunto de datos sintéticos cuidadosamente anotados para mejorar la precisión y el control. Los datos de escenas de juego curadas mejoran significativamente la fidelidad visual, el realismo y la controlabilidad de las acciones. Experimentos extensos demuestran que Hunyuan-GameCraft supera significativamente a los modelos existentes, avanzando en el realismo y la jugabilidad de la generación de videos de juego interactivos.
English
Recent advances in diffusion-based and controllable video generation have
enabled high-quality and temporally coherent video synthesis, laying the
groundwork for immersive interactive gaming experiences. However, current
methods face limitations in dynamics, generality, long-term consistency, and
efficiency, which limit the ability to create various gameplay videos. To
address these gaps, we introduce Hunyuan-GameCraft, a novel framework for
high-dynamic interactive video generation in game environments. To achieve
fine-grained action control, we unify standard keyboard and mouse inputs into a
shared camera representation space, facilitating smooth interpolation between
various camera and movement operations. Then we propose a hybrid
history-conditioned training strategy that extends video sequences
autoregressively while preserving game scene information. Additionally, to
enhance inference efficiency and playability, we achieve model distillation to
reduce computational overhead while maintaining consistency across long
temporal sequences, making it suitable for real-time deployment in complex
interactive environments. The model is trained on a large-scale dataset
comprising over one million gameplay recordings across over 100 AAA games,
ensuring broad coverage and diversity, then fine-tuned on a carefully annotated
synthetic dataset to enhance precision and control. The curated game scene data
significantly improves the visual fidelity, realism and action controllability.
Extensive experiments demonstrate that Hunyuan-GameCraft significantly
outperforms existing models, advancing the realism and playability of
interactive game video generation.