MeepleLM: Een Virtuele Speltester die Diverse Subjectieve Ervaringen Simuleert

Samenvatting

Recente ontwikkelingen hebben de rol van grote taalmodel(len) in bordspellen uitgebreid van spelende agenten tot creatieve co-ontwerpers. Er blijft echter een kritieke kloof bestaan: huidige systemen missen het vermogen om constructieve kritiek te geven die is gebaseerd op de emergente gebruikerservaring. Het overbruggen van deze kloof is fundamenteel voor het harmoniseren van mens-AI-samenwerking, omdat het ontwerpers in staat stelt hun creaties te verfijnen via externe perspectieven en tegelijkertijd modellen wegstuurt van bevooroordeelde of onvoorspelbare uitkomsten. Het automatiseren van kritiek voor bordspellen kent twee uitdagingen: het afleiden van de onderliggende dynamiek die regels aan gameplay verbindt zonder een expliciete engine, en het modelleren van de subjectieve heterogeniteit van diverse spelersgroepen. Om deze aan te pakken, hebben we een dataset samengesteld van 1.727 structureel gecorrigeerde spelregelboekjes en 150.000 beoordelingen, geselecteerd via kwaliteitsscores en facetbewuste steekproeven. We verrijken deze data met Mechanics-Dynamics-Aesthetics (MDA)-redenering om de causale kloof tussen geschreven regels en spelerservaring expliciet te overbruggen. Verder destilleren we spelerspersona's en introduceren we MeepleLM, een gespecialiseerd model dat persona-specifieke redeneerpatronen internaliseert om de subjectieve feedback van diverse spelersarchetypen nauwkeurig te simuleren. Experimenten tonen aan dat MeepleLM aanzienlijk beter presteert dan de nieuwste commerciële modellen (zoals GPT-5.1, Gemini3-Pro) op het gebied van community-alignering en kritiekkwaliteit, met een voorkeurspercentage van 70% in gebruikersstudies die de bruikbaarheid beoordelen. MeepleLM dient als een betrouwbare virtuele playtester voor algemene interactieve systemen, wat een cruciale stap markeert richting publieksgerichte, ervaringsbewuste mens-AI-samenwerking.

English

Recent advancements have expanded the role of Large Language Models in board games from playing agents to creative co-designers. However, a critical gap remains: current systems lack the capacity to offer constructive critique grounded in the emergent user experience. Bridging this gap is fundamental for harmonizing Human-AI collaboration, as it empowers designers to refine their creations via external perspectives while steering models away from biased or unpredictable outcomes. Automating critique for board games presents two challenges: inferring the latent dynamics connecting rules to gameplay without an explicit engine, and modeling the subjective heterogeneity of diverse player groups. To address these, we curate a dataset of 1,727 structurally corrected rulebooks and 150K reviews selected via quality scoring and facet-aware sampling. We augment this data with Mechanics-Dynamics-Aesthetics (MDA) reasoning to explicitly bridge the causal gap between written rules and player experience. We further distill player personas and introduce MeepleLM, a specialized model that internalizes persona-specific reasoning patterns to accurately simulate the subjective feedback of diverse player archetypes. Experiments demonstrate that MeepleLM significantly outperforms latest commercial models (e.g., GPT-5.1, Gemini3-Pro) in community alignment and critique quality, achieving a 70% preference rate in user studies assessing utility. MeepleLM serves as a reliable virtual playtester for general interactive systems, marking a pivotal step towards audience-aligned, experience-aware Human-AI collaboration.

MeepleLM: Een Virtuele Speltester die Diverse Subjectieve Ervaringen Simuleert

MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Samenvatting

Support