ChronoPlay: Фреймворк для моделирования двойной динамики и аутентичности в игровых RAG-бенчмарках
ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks
October 21, 2025
Авторы: Liyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong
cs.AI
Аннотация
Системы генерации с расширенным поиском (RAG) становятся все более важными в динамичных областях, таких как онлайн-игры, однако отсутствие специализированного бенчмарка препятствует стандартизированной оценке в этой сфере. Основная сложность заключается в двойной динамике: постоянном взаимодействии между обновлениями игрового контента и изменяющимися интересами игрового сообщества. Кроме того, необходимость автоматизации такого бенчмарка вводит критическое требование к аутентичности, ориентированной на игрока, чтобы гарантировать реалистичность генерируемых вопросов. Для решения этой комплексной задачи мы представляем ChronoPlay — новую платформу для автоматизированного и непрерывного генерации бенчмарков RAG для игр. ChronoPlay использует механизм двойного динамического обновления для отслеживания обеих форм изменений, а также механизм синтеза из двух источников, который черпает данные как из официальных источников, так и из игрового сообщества, чтобы обеспечить как фактическую точность, так и аутентичные паттерны запросов. Мы реализуем нашу платформу на трех различных играх, чтобы создать первый динамический бенчмарк RAG для игровой сферы, предлагая новые insights о производительности моделей в этих сложных и реалистичных условиях. Код доступен по адресу: https://github.com/hly1998/ChronoPlay.
English
Retrieval Augmented Generation (RAG) systems are increasingly vital in
dynamic domains like online gaming, yet the lack of a dedicated benchmark has
impeded standardized evaluation in this area. The core difficulty lies in Dual
Dynamics: the constant interplay between game content updates and the shifting
focus of the player community. Furthermore, the necessity of automating such a
benchmark introduces a critical requirement for player-centric authenticity to
ensure generated questions are realistic. To address this integrated challenge,
we introduce ChronoPlay, a novel framework for the automated and continuous
generation of game RAG benchmarks. ChronoPlay utilizes a dual-dynamic update
mechanism to track both forms of change, and a dual-source synthesis engine
that draws from official sources and player community to ensure both factual
correctness and authentic query patterns. We instantiate our framework on three
distinct games to create the first dynamic RAG benchmark for the gaming domain,
offering new insights into model performance under these complex and realistic
conditions. Code is avaliable at: https://github.com/hly1998/ChronoPlay.