Hunyuan-GameCraft: 하이브리드 히스토리 조건을 활용한 고동적 인터랙티브 게임 비디오 생성
Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition
June 20, 2025
저자: Jiaqi Li, Junshu Tang, Zhiyong Xu, Longhuang Wu, Yuan Zhou, Shuai Shao, Tianbao Yu, Zhiguo Cao, Qinglin Lu
cs.AI
초록
디퓨전 기반 및 제어 가능한 비디오 생성의 최근 발전은 고품질이고 시간적으로 일관된 비디오 합성을 가능하게 하여 몰입형 인터랙티브 게임 경험의 기반을 마련했습니다. 그러나 현재의 방법들은 역동성, 일반성, 장기적 일관성 및 효율성 측면에서 한계를 보이며, 다양한 게임플레이 비디오를 생성하는 능력을 제한하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 게임 환경에서 고역동적 인터랙티브 비디오 생성을 위한 새로운 프레임워크인 Hunyuan-GameCraft를 소개합니다. 세밀한 액션 제어를 달성하기 위해, 우리는 표준 키보드 및 마우스 입력을 공유 카메라 표현 공간으로 통합하여 다양한 카메라 및 이동 작업 간의 원활한 보간을 가능하게 합니다. 그런 다음, 게임 장면 정보를 보존하면서 비디오 시퀀스를 자기회귀적으로 확장하는 하이브리드 히스토리 조건화 훈련 전략을 제안합니다. 또한, 추론 효율성과 플레이 가능성을 향상시키기 위해, 모델 경량화를 통해 계산 오버헤드를 줄이면서도 긴 시간적 시퀀스에서 일관성을 유지하여 복잡한 인터랙티브 환경에서 실시간 배포에 적합하도록 합니다. 이 모델은 100개 이상의 AAA 게임에서 수집된 100만 개 이상의 게임플레이 기록으로 구성된 대규모 데이터셋으로 훈련되어 광범위한 커버리지와 다양성을 보장하며, 정밀도와 제어력을 높이기 위해 주의 깊게 주석이 달린 합성 데이터셋으로 미세 조정됩니다. 이렇게 정제된 게임 장면 데이터는 시각적 충실도, 현실감 및 액션 제어 가능성을 크게 향상시킵니다. 광범위한 실험을 통해 Hunyuan-GameCraft가 기존 모델들을 크게 능가하며, 인터랙티브 게임 비디오 생성의 현실감과 플레이 가능성을 크게 발전시킴을 입증합니다.
English
Recent advances in diffusion-based and controllable video generation have
enabled high-quality and temporally coherent video synthesis, laying the
groundwork for immersive interactive gaming experiences. However, current
methods face limitations in dynamics, generality, long-term consistency, and
efficiency, which limit the ability to create various gameplay videos. To
address these gaps, we introduce Hunyuan-GameCraft, a novel framework for
high-dynamic interactive video generation in game environments. To achieve
fine-grained action control, we unify standard keyboard and mouse inputs into a
shared camera representation space, facilitating smooth interpolation between
various camera and movement operations. Then we propose a hybrid
history-conditioned training strategy that extends video sequences
autoregressively while preserving game scene information. Additionally, to
enhance inference efficiency and playability, we achieve model distillation to
reduce computational overhead while maintaining consistency across long
temporal sequences, making it suitable for real-time deployment in complex
interactive environments. The model is trained on a large-scale dataset
comprising over one million gameplay recordings across over 100 AAA games,
ensuring broad coverage and diversity, then fine-tuned on a carefully annotated
synthetic dataset to enhance precision and control. The curated game scene data
significantly improves the visual fidelity, realism and action controllability.
Extensive experiments demonstrate that Hunyuan-GameCraft significantly
outperforms existing models, advancing the realism and playability of
interactive game video generation.