ChronoPlay: Un Framework per la Modellazione della Doppia Dinamica e dell'Autenticità nei Benchmark RAG per Videogiochi
ChronoPlay: A Framework for Modeling Dual Dynamics and Authenticity in Game RAG Benchmarks
October 21, 2025
Autori: Liyang He, Yuren Zhang, Ziwei Zhu, Zhenghui Li, Shiwei Tong
cs.AI
Abstract
I sistemi di Generazione Aumentata dal Recupero (RAG) stanno diventando sempre più cruciali in domini dinamici come il gaming online, ma la mancanza di un benchmark dedicato ha ostacolato una valutazione standardizzata in questo ambito. La difficoltà principale risiede nella Doppia Dinamica: l'interazione costante tra gli aggiornamenti dei contenuti di gioco e il mutevole focus della community dei giocatori. Inoltre, la necessità di automatizzare tale benchmark introduce un requisito critico di autenticità centrata sul giocatore, per garantire che le domande generate siano realistiche. Per affrontare questa sfida integrata, introduciamo ChronoPlay, un framework innovativo per la generazione automatizzata e continua di benchmark RAG per giochi. ChronoPlay utilizza un meccanismo di aggiornamento a doppia dinamica per tracciare entrambe le forme di cambiamento e un motore di sintesi a doppia fonte che attinge da fonti ufficiali e dalla community dei giocatori per garantire sia la correttezza fattuale che modelli di interrogazione autentici. Istanziamo il nostro framework su tre giochi distinti per creare il primo benchmark RAG dinamico per il dominio del gaming, offrendo nuove intuizioni sulle prestazioni dei modelli in queste condizioni complesse e realistiche. Il codice è disponibile all'indirizzo: https://github.com/hly1998/ChronoPlay.
English
Retrieval Augmented Generation (RAG) systems are increasingly vital in
dynamic domains like online gaming, yet the lack of a dedicated benchmark has
impeded standardized evaluation in this area. The core difficulty lies in Dual
Dynamics: the constant interplay between game content updates and the shifting
focus of the player community. Furthermore, the necessity of automating such a
benchmark introduces a critical requirement for player-centric authenticity to
ensure generated questions are realistic. To address this integrated challenge,
we introduce ChronoPlay, a novel framework for the automated and continuous
generation of game RAG benchmarks. ChronoPlay utilizes a dual-dynamic update
mechanism to track both forms of change, and a dual-source synthesis engine
that draws from official sources and player community to ensure both factual
correctness and authentic query patterns. We instantiate our framework on three
distinct games to create the first dynamic RAG benchmark for the gaming domain,
offering new insights into model performance under these complex and realistic
conditions. Code is avaliable at: https://github.com/hly1998/ChronoPlay.