ChronoPlay: Een Raamwerk voor het Modelleren van Duale Dynamiek en Authenticiteit in Game RAG Benchmarks
ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks
October 21, 2025
Auteurs: Liyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong
cs.AI
Samenvatting
Retrieval Augmented Generation (RAG)-systemen worden steeds belangrijker in dynamische domeinen zoals online gaming, maar het ontbreken van een toegewijde benchmark heeft gestandaardiseerde evaluatie op dit gebied belemmerd. De kernmoeilijkheid schuilt in Dual Dynamics: de constante wisselwerking tussen updates van de spelinhoud en de verschuivende focus van de spelersgemeenschap. Bovendien introduceert de noodzaak om een dergelijke benchmark te automatiseren een kritieke vereiste voor authenticiteit vanuit spelersperspectief, om ervoor te zorgen dat gegenereerde vragen realistisch zijn. Om deze geïntegreerde uitdaging aan te pakken, introduceren wij ChronoPlay, een nieuw raamwerk voor de geautomatiseerde en continue generatie van game-RAG-benchmarks. ChronoPlay maakt gebruik van een dual-dynamisch updatemechanisme om beide vormen van verandering te volgen, en een dual-source synthese-engine die put uit officiële bronnen en de spelersgemeenschap om zowel feitelijke correctheid als authentieke vraagpatronen te waarborgen. Wij concretiseren ons raamwerk op drie verschillende games om de eerste dynamische RAG-benchmark voor het gamedomein te creëren, wat nieuwe inzichten biedt in modelprestaties onder deze complexe en realistische omstandigheden. Code is beschikbaar op: https://github.com/hly1998/ChronoPlay.
English
Retrieval Augmented Generation (RAG) systems are increasingly vital in
dynamic domains like online gaming, yet the lack of a dedicated benchmark has
impeded standardized evaluation in this area. The core difficulty lies in Dual
Dynamics: the constant interplay between game content updates and the shifting
focus of the player community. Furthermore, the necessity of automating such a
benchmark introduces a critical requirement for player-centric authenticity to
ensure generated questions are realistic. To address this integrated challenge,
we introduce ChronoPlay, a novel framework for the automated and continuous
generation of game RAG benchmarks. ChronoPlay utilizes a dual-dynamic update
mechanism to track both forms of change, and a dual-source synthesis engine
that draws from official sources and player community to ensure both factual
correctness and authentic query patterns. We instantiate our framework on three
distinct games to create the first dynamic RAG benchmark for the gaming domain,
offering new insights into model performance under these complex and realistic
conditions. Code is avaliable at: https://github.com/hly1998/ChronoPlay.