ChronoPlay: Ein Framework zur Modellierung dualer Dynamiken und Authentizität in Game-RAG-Benchmarks
ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks
October 21, 2025
papers.authors: Liyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong
cs.AI
papers.abstract
Retrieval-Augmented-Generation (RAG)-Systeme werden in dynamischen Bereichen wie dem Online-Gaming zunehmend wichtiger, doch das Fehlen eines speziellen Benchmarks hat eine standardisierte Evaluierung in diesem Bereich bisher behindert. Die zentrale Schwierigkeit liegt in der Dualen Dynamik: dem ständigen Zusammenspiel zwischen Updates der Spielinhalte und dem sich wandelnden Fokus der Spielergemeinschaft. Darüber hinaus führt die Notwendigkeit, einen solchen Benchmark zu automatisieren, zu einer kritischen Anforderung an spielerzentrierte Authentizität, um realistische generierte Fragen sicherzustellen. Um dieser integrierten Herausforderung zu begegnen, stellen wir ChronoPlay vor, ein neuartiges Framework zur automatisierten und kontinuierlichen Generierung von Spiel-RAG-Benchmarks. ChronoPlay nutzt einen dual-dynamischen Aktualisierungsmechanismus, um beide Arten von Veränderungen zu verfolgen, sowie eine Dual-Source-Synthese-Engine, die sich aus offiziellen Quellen und der Spielergemeinschaft speist, um sowohl faktische Korrektheit als auch authentische Abfragemuster zu gewährleisten. Wir instanziieren unser Framework für drei verschiedene Spiele, um den ersten dynamischen RAG-Benchmark für den Gaming-Bereich zu schaffen, der neue Einblicke in die Modellleistung unter diesen komplexen und realistischen Bedingungen bietet. Der Code ist verfügbar unter: https://github.com/hly1998/ChronoPlay.
English
Retrieval Augmented Generation (RAG) systems are increasingly vital in
dynamic domains like online gaming, yet the lack of a dedicated benchmark has
impeded standardized evaluation in this area. The core difficulty lies in Dual
Dynamics: the constant interplay between game content updates and the shifting
focus of the player community. Furthermore, the necessity of automating such a
benchmark introduces a critical requirement for player-centric authenticity to
ensure generated questions are realistic. To address this integrated challenge,
we introduce ChronoPlay, a novel framework for the automated and continuous
generation of game RAG benchmarks. ChronoPlay utilizes a dual-dynamic update
mechanism to track both forms of change, and a dual-source synthesis engine
that draws from official sources and player community to ensure both factual
correctness and authentic query patterns. We instantiate our framework on three
distinct games to create the first dynamic RAG benchmark for the gaming domain,
offering new insights into model performance under these complex and realistic
conditions. Code is avaliable at: https://github.com/hly1998/ChronoPlay.