MeepleLM: Un Playtester Virtuale che Simula Esperienze Soggettive Diversificate

Abstract

I recenti progressi hanno ampliato il ruolo dei Large Language Model nei giochi da tavolo, trasformandoli da semplici agenti di gioco a co-progettisti creativi. Tuttavia, rimane una lacuna critica: i sistemi attuali non possiedono la capacità di offrire critiche costruttive basate sull'esperienza utente emergente. Colmare questa lacuna è fondamentale per armonizzare la collaborazione Uomo-IA, poiché permette ai progettisti di affinare le loro creazioni attraverso prospettive esterne, guidando al contempo i modelli lontano da esiti distorti o imprevedibili. Automatizzare la critica per i giochi da tavolo presenta due sfide: inferire le dinamiche latenti che collegano le regole al gameplay senza un motore esplicito e modellare l'eterogeneità soggettiva di diversi gruppi di giocatori. Per affrontarle, abbiamo curato un dataset di 1.727 regolamenti strutturalmente corretti e 150.000 recensioni selezionate mediante punteggi di qualità e campionamento basato su aspetti specifici. Abbiamo arricchito questi dati con il ragionamento Meccaniche-Dinamiche-Estetica (MDA) per colmare esplicitamente il divario causale tra regole scritte ed esperienza del giocatore. Inoltre, distilliamo i profili dei giocatori e introduciamo MeepleLM, un modello specializzato che interiorizza schemi di ragionamento specifici per persona per simulare accuratamente il feedback soggettivo di diversi archetipi di giocatore. Gli esperimenti dimostrano che MeepleLM supera significativamente i più recenti modelli commerciali (ad es. GPT-5.1, Gemini3-Pro) nell'allineamento alla comunità e nella qualità della critica, raggiungendo un tasso di preferenza del 70% in studi utente che valutano l'utilità. MeepleLM funge da playtester virtuale affidabile per sistemi interattivi generali, segnando un passo cruciale verso una collaborazione Uomo-IA allineata al pubblico e consapevole dell'esperienza.

English

Recent advancements have expanded the role of Large Language Models in board games from playing agents to creative co-designers. However, a critical gap remains: current systems lack the capacity to offer constructive critique grounded in the emergent user experience. Bridging this gap is fundamental for harmonizing Human-AI collaboration, as it empowers designers to refine their creations via external perspectives while steering models away from biased or unpredictable outcomes. Automating critique for board games presents two challenges: inferring the latent dynamics connecting rules to gameplay without an explicit engine, and modeling the subjective heterogeneity of diverse player groups. To address these, we curate a dataset of 1,727 structurally corrected rulebooks and 150K reviews selected via quality scoring and facet-aware sampling. We augment this data with Mechanics-Dynamics-Aesthetics (MDA) reasoning to explicitly bridge the causal gap between written rules and player experience. We further distill player personas and introduce MeepleLM, a specialized model that internalizes persona-specific reasoning patterns to accurately simulate the subjective feedback of diverse player archetypes. Experiments demonstrate that MeepleLM significantly outperforms latest commercial models (e.g., GPT-5.1, Gemini3-Pro) in community alignment and critique quality, achieving a 70% preference rate in user studies assessing utility. MeepleLM serves as a reliable virtual playtester for general interactive systems, marking a pivotal step towards audience-aligned, experience-aware Human-AI collaboration.

MeepleLM: Un Playtester Virtuale che Simula Esperienze Soggettive Diversificate

MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Abstract

Support