ChatPaper.aiChatPaper

ChronoPlay : Un Cadre pour la Modélisation des Dynamiques Duales et de l'Authenticité dans les Benchmarks RAG pour Jeux

ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks

October 21, 2025
papers.authors: Liyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong
cs.AI

papers.abstract

Les systèmes de Génération Augmentée par Récupération (RAG) deviennent de plus en plus cruciaux dans les domaines dynamiques comme le jeu en ligne, mais l'absence de benchmark dédié a entravé l'évaluation standardisée dans ce domaine. La difficulté centrale réside dans la Double Dynamique : l'interaction constante entre les mises à jour du contenu du jeu et l'évolution des centres d'intérêt de la communauté de joueurs. De plus, la nécessité d'automatiser un tel benchmark introduit un impératif critique d'authenticité centrée sur le joueur pour garantir que les questions générées soient réalistes. Pour relever ce défi intégré, nous présentons ChronoPlay, un cadre novateur pour la génération automatisée et continue de benchmarks RAG pour les jeux. ChronoPlay utilise un mécanisme de mise à jour double dynamique pour suivre les deux formes de changement, et un moteur de synthèse à double source qui puise dans les sources officielles et la communauté des joueurs pour garantir à la fois l'exactitude factuelle et l'authenticité des modèles de requêtes. Nous instancions notre cadre sur trois jeux distincts pour créer le premier benchmark RAG dynamique pour le domaine du jeu vidéo, offrant de nouvelles perspectives sur la performance des modèles dans ces conditions complexes et réalistes. Le code est disponible à l'adresse : https://github.com/hly1998/ChronoPlay.
English
Retrieval Augmented Generation (RAG) systems are increasingly vital in dynamic domains like online gaming, yet the lack of a dedicated benchmark has impeded standardized evaluation in this area. The core difficulty lies in Dual Dynamics: the constant interplay between game content updates and the shifting focus of the player community. Furthermore, the necessity of automating such a benchmark introduces a critical requirement for player-centric authenticity to ensure generated questions are realistic. To address this integrated challenge, we introduce ChronoPlay, a novel framework for the automated and continuous generation of game RAG benchmarks. ChronoPlay utilizes a dual-dynamic update mechanism to track both forms of change, and a dual-source synthesis engine that draws from official sources and player community to ensure both factual correctness and authentic query patterns. We instantiate our framework on three distinct games to create the first dynamic RAG benchmark for the gaming domain, offering new insights into model performance under these complex and realistic conditions. Code is avaliable at: https://github.com/hly1998/ChronoPlay.
PDF171December 2, 2025