MeepleLM : Un Testeur Virtuel Simulant des Expériences Subjectives Diverses

Résumé

Les avancées récentes ont élargi le rôle des grands modèles de langage dans les jeux de société, les faisant passer d'agents joueurs à des co-concepteurs créatifs. Cependant, une lacune critique persiste : les systèmes actuels sont incapables d'offrir une critique constructive fondée sur l'expérience utilisateur émergente. Combler cette lacune est fondamental pour harmoniser la collaboration Humain-IA, car elle permet aux concepteurs d'affiner leurs créations via des perspectives externes tout en éloignant les modèles de résultats biaisés ou imprévisibles. L'automatisation de la critique pour les jeux de société présente deux défis : inférer la dynamique latente reliant les règles au gameplay sans moteur explicite, et modéliser l'hétérogénéité subjective des différents groupes de joueurs. Pour y remédier, nous constituons un jeu de données de 1 727 règles structurellement corrigées et 150 000 avis sélectionnés via un score de qualité et un échantillonnage tenant compte des facettes. Nous enrichissons ces données avec un raisonnement Mécaniques-Dynamiques-Expérience (MDA) pour explicitement combler le fossé causal entre les règles écrites et l'expérience du joueur. Nous distillons ensuite des personnages de joueurs et présentons MeepleLM, un modèle spécialisé qui internalise des schémas de raisonnement spécifiques à chaque personnage pour simuler avec précision les retours subjectifs de diverses archétypes de joueurs. Les expériences démontrent que MeepleLM surpasse significativement les derniers modèles commerciaux (par exemple, GPT-5.1, Gemini3-Pro) en alignement communautaire et en qualité de critique, atteignant un taux de préférence de 70 % dans les études utilisateurs évaluant l'utilité. MeepleLM sert de testeur virtuel fiable pour les systèmes interactifs généraux, marquant une étape cruciale vers une collaboration Humain-IA alignée sur le public et consciente de l'expérience.

English

Recent advancements have expanded the role of Large Language Models in board games from playing agents to creative co-designers. However, a critical gap remains: current systems lack the capacity to offer constructive critique grounded in the emergent user experience. Bridging this gap is fundamental for harmonizing Human-AI collaboration, as it empowers designers to refine their creations via external perspectives while steering models away from biased or unpredictable outcomes. Automating critique for board games presents two challenges: inferring the latent dynamics connecting rules to gameplay without an explicit engine, and modeling the subjective heterogeneity of diverse player groups. To address these, we curate a dataset of 1,727 structurally corrected rulebooks and 150K reviews selected via quality scoring and facet-aware sampling. We augment this data with Mechanics-Dynamics-Aesthetics (MDA) reasoning to explicitly bridge the causal gap between written rules and player experience. We further distill player personas and introduce MeepleLM, a specialized model that internalizes persona-specific reasoning patterns to accurately simulate the subjective feedback of diverse player archetypes. Experiments demonstrate that MeepleLM significantly outperforms latest commercial models (e.g., GPT-5.1, Gemini3-Pro) in community alignment and critique quality, achieving a 70% preference rate in user studies assessing utility. MeepleLM serves as a reliable virtual playtester for general interactive systems, marking a pivotal step towards audience-aligned, experience-aware Human-AI collaboration.

MeepleLM : Un Testeur Virtuel Simulant des Expériences Subjectives Diverses

MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Résumé

Support