ChronoPlay: Uma Estrutura para Modelagem de Dinâmicas Duplas e Autenticidade em Benchmarks de RAG para Jogos
ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks
October 21, 2025
Autores: Liyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong
cs.AI
Resumo
Os sistemas de Geração Aumentada por Recuperação (RAG) são cada vez mais vitais em domínios dinâmicos como os jogos online, mas a falta de um benchmark dedicado tem impedido uma avaliação padronizada nesta área. A dificuldade central reside na Dupla Dinâmica: a interação constante entre as atualizações de conteúdo do jogo e a mudança de foco da comunidade de jogadores. Além disso, a necessidade de automatizar tal benchmark introduz um requisito crítico de autenticidade centrada no jogador para garantir que as perguntas geradas sejam realistas. Para enfrentar este desafio integrado, apresentamos o ChronoPlay, uma estrutura inovadora para a geração automática e contínua de benchmarks RAG para jogos. O ChronoPlay utiliza um mecanismo de atualização de dupla dinâmica para rastrear ambas as formas de mudança, e um motor de síntese de dupla fonte que recorre a fontes oficiais e à comunidade de jogadores para garantir tanto a correção factual quanto padrões de consulta autênticos. Instanciamos nossa estrutura em três jogos distintos para criar o primeiro benchmark RAG dinâmico para o domínio dos jogos, oferecendo novos insights sobre o desempenho dos modelos nestas condições complexas e realistas. O código está disponível em: https://github.com/hly1998/ChronoPlay.
English
Retrieval Augmented Generation (RAG) systems are increasingly vital in
dynamic domains like online gaming, yet the lack of a dedicated benchmark has
impeded standardized evaluation in this area. The core difficulty lies in Dual
Dynamics: the constant interplay between game content updates and the shifting
focus of the player community. Furthermore, the necessity of automating such a
benchmark introduces a critical requirement for player-centric authenticity to
ensure generated questions are realistic. To address this integrated challenge,
we introduce ChronoPlay, a novel framework for the automated and continuous
generation of game RAG benchmarks. ChronoPlay utilizes a dual-dynamic update
mechanism to track both forms of change, and a dual-source synthesis engine
that draws from official sources and player community to ensure both factual
correctness and authentic query patterns. We instantiate our framework on three
distinct games to create the first dynamic RAG benchmark for the gaming domain,
offering new insights into model performance under these complex and realistic
conditions. Code is avaliable at: https://github.com/hly1998/ChronoPlay.