ChatPaper.aiChatPaper

ChronoPlay: Un Marco para Modelar la Dinámica Dual y la Autenticidad en los Benchmarks de RAG para Videojuegos

ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks

October 21, 2025
Autores: Liyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong
cs.AI

Resumen

Los sistemas de Generación Aumentada por Recuperación (RAG) son cada vez más vitales en dominios dinámicos como los videojuegos online, sin embargo, la falta de un benchmark dedicado ha impedido una evaluación estandarizada en esta área. La dificultad central reside en la Dualidad Dinámica: la interacción constante entre las actualizaciones de contenido del juego y el cambio de enfoque de la comunidad de jugadores. Además, la necesidad de automatizar dicho benchmark introduce un requisito crítico de autenticidad centrada en el jugador para garantizar que las preguntas generadas sean realistas. Para abordar este desafío integrado, presentamos ChronoPlay, un marco novedoso para la generación automática y continua de benchmarks RAG para videojuegos. ChronoPlay utiliza un mecanismo de actualización de doble dinámica para rastrear ambas formas de cambio, y un motor de síntesis de doble fuente que se nutre de fuentes oficiales y de la comunidad de jugadores para garantizar tanto la corrección factual como patrones de consulta auténticos. Instanciamos nuestro marco en tres juegos distintos para crear el primer benchmark RAG dinámico para el dominio de los videojuegos, ofreciendo nuevas perspectivas sobre el rendimiento de los modelos bajo estas condiciones complejas y realistas. El código está disponible en: https://github.com/hly1998/ChronoPlay.
English
Retrieval Augmented Generation (RAG) systems are increasingly vital in dynamic domains like online gaming, yet the lack of a dedicated benchmark has impeded standardized evaluation in this area. The core difficulty lies in Dual Dynamics: the constant interplay between game content updates and the shifting focus of the player community. Furthermore, the necessity of automating such a benchmark introduces a critical requirement for player-centric authenticity to ensure generated questions are realistic. To address this integrated challenge, we introduce ChronoPlay, a novel framework for the automated and continuous generation of game RAG benchmarks. ChronoPlay utilizes a dual-dynamic update mechanism to track both forms of change, and a dual-source synthesis engine that draws from official sources and player community to ensure both factual correctness and authentic query patterns. We instantiate our framework on three distinct games to create the first dynamic RAG benchmark for the gaming domain, offering new insights into model performance under these complex and realistic conditions. Code is avaliable at: https://github.com/hly1998/ChronoPlay.
PDF171December 2, 2025