ChronoPlay: 게임 RAG 벤치마크에서 이중 역동성과 진정성을 모델링하기 위한 프레임워크
ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks
October 21, 2025
저자: Liyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong
cs.AI
초록
검색 증대 생성(RAG) 시스템은 온라인 게임과 같은 동적 분야에서 점점 더 중요해지고 있지만, 전용 벤치마크의 부재로 이 분야의 표준화된 평가가 어려웠습니다. 핵심적인 어려움은 이중 동적성(Dual Dynamics), 즉 게임 콘텐츠 업데이트와 플레이어 커뮤니티의 변화하는 관심 사이의 지속적인 상호작용에 있습니다. 더 나아가, 이러한 벤치마크의 자동화 필요성은 생성된 질문이 현실적이도록 보장하기 위해 플레이어 중심의 진정성(Authenticity)이라는 중요한 요구 사항을 도입합니다. 이러한 통합된 과제를 해결하기 위해 우리는 게임 RAG 벤치마크의 자동적이고 지속적인 생성을 위한 새로운 프레임워크인 ChronoPlay를 소개합니다. ChronoPlay는 두 형태의 변화를 추적하기 위한 이중 동적 업데이트 메커니즘과, 공식 소스와 플레이어 커뮤니티로부터 정보를 수집하여 사실적 정확성과 실제적인 질의 패턴을 모두 보장하는 이중 소스 합성 엔진을 활용합니다. 우리는 이 프레임워크를 세 가지 독특한 게임에 적용하여 게임 분야 최초의 동적 RAG 벤치마크를 구축했으며, 이러한 복잡하고 현실적인 조건 하에서의 모델 성능에 대한 새로운 통찰을 제공합니다. 코드는 https://github.com/hly1998/ChronoPlay 에서 이용 가능합니다.
English
Retrieval Augmented Generation (RAG) systems are increasingly vital in
dynamic domains like online gaming, yet the lack of a dedicated benchmark has
impeded standardized evaluation in this area. The core difficulty lies in Dual
Dynamics: the constant interplay between game content updates and the shifting
focus of the player community. Furthermore, the necessity of automating such a
benchmark introduces a critical requirement for player-centric authenticity to
ensure generated questions are realistic. To address this integrated challenge,
we introduce ChronoPlay, a novel framework for the automated and continuous
generation of game RAG benchmarks. ChronoPlay utilizes a dual-dynamic update
mechanism to track both forms of change, and a dual-source synthesis engine
that draws from official sources and player community to ensure both factual
correctness and authentic query patterns. We instantiate our framework on three
distinct games to create the first dynamic RAG benchmark for the gaming domain,
offering new insights into model performance under these complex and realistic
conditions. Code is avaliable at: https://github.com/hly1998/ChronoPlay.