Hunyuan-GameCraft: Генерация высокодинамичных интерактивных игровых видео с гибридным условием на основе истории
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition
June 20, 2025
Авторы: Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu
cs.AI
Аннотация
Последние достижения в области генерации видео на основе диффузионных моделей и управляемого создания видео позволили добиться высококачественного и временно согласованного синтеза видео, заложив основу для создания иммерсивных интерактивных игровых впечатлений. Однако современные методы сталкиваются с ограничениями в динамике, универсальности, долгосрочной согласованности и эффективности, что затрудняет создание разнообразных игровых видеороликов. Для устранения этих пробелов мы представляем Hunyuan-GameCraft — новую платформу для генерации высокодинамичных интерактивных видео в игровых средах. Для достижения детального управления действиями мы объединяем стандартные вводы с клавиатуры и мыши в общее пространство представления камеры, обеспечивая плавную интерполяцию между различными операциями камеры и перемещения. Затем мы предлагаем гибридную стратегию обучения с учетом истории, которая авторегрессивно расширяет видеопоследовательности, сохраняя при этом информацию об игровой сцене. Кроме того, для повышения эффективности вывода и игрового опыта мы применяем дистилляцию модели, чтобы снизить вычислительные затраты, сохраняя согласованность на длительных временных последовательностях, что делает её пригодной для использования в реальном времени в сложных интерактивных средах. Модель обучается на масштабном наборе данных, включающем более миллиона записей игрового процесса из более чем 100 AAA-игр, что обеспечивает широкий охват и разнообразие, а затем дорабатывается на тщательно аннотированном синтетическом наборе данных для повышения точности и управляемости. Курируемые данные игровых сцен значительно улучшают визуальную достоверность, реалистичность и управляемость действиями. Многочисленные эксперименты демонстрируют, что Hunyuan-GameCraft значительно превосходит существующие модели, продвигая реализм и игровой опыт в генерации интерактивных игровых видео.
English
Recent advances in diffusion-based and controllable video generation have
enabled high-quality and temporally coherent video synthesis, laying the
groundwork for immersive interactive gaming experiences. However, current
methods face limitations in dynamics, generality, long-term consistency, and
efficiency, which limit the ability to create various gameplay videos. To
address these gaps, we introduce Hunyuan-GameCraft, a novel framework for
high-dynamic interactive video generation in game environments. To achieve
fine-grained action control, we unify standard keyboard and mouse inputs into a
shared camera representation space, facilitating smooth interpolation between
various camera and movement operations. Then we propose a hybrid
history-conditioned training strategy that extends video sequences
autoregressively while preserving game scene information. Additionally, to
enhance inference efficiency and playability, we achieve model distillation to
reduce computational overhead while maintaining consistency across long
temporal sequences, making it suitable for real-time deployment in complex
interactive environments. The model is trained on a large-scale dataset
comprising over one million gameplay recordings across over 100 AAA games,
ensuring broad coverage and diversity, then fine-tuned on a carefully annotated
synthetic dataset to enhance precision and control. The curated game scene data
significantly improves the visual fidelity, realism and action controllability.
Extensive experiments demonstrate that Hunyuan-GameCraft significantly
outperforms existing models, advancing the realism and playability of
interactive game video generation.