MeepleLM: Ein virtueller Spieltester zur Simulation vielfältiger subjektiver Erfahrungen
MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences
January 12, 2026
papers.authors: Zizhen Li, Chuanhao Li, Yibin Wang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Yifei Huang, Kaipeng Zhang
cs.AI
papers.abstract
Jüngste Fortschritte haben die Rolle von Large Language Models bei Brettspielen von spielenden Agenten zu kreativen Co-Designern erweitert. Es bleibt jedoch eine kritische Lücke: Aktuelle Systeme sind nicht in der Lage, konstruktive Kritik auf der Grundlage der entstehenden Benutzererfahrung zu liefern. Diese Lücke zu schließen ist grundlegend für eine harmonische Mensch-KI-Kollaboration, da sie Designer befähigt, ihre Kreationen durch externe Perspektiven zu verfeinern und gleichzeitig Modelle vor verzerrten oder unvorhersehbaren Ergebnissen zu bewahren. Die Automatisierung von Kritik für Brettspiele stellt zwei Herausforderungen dar: das Erschließen der latenten Dynamik, die Regeln mit dem Gameplay verbindet, ohne eine explizite Engine, und die Modellierung der subjektiven Heterogenität verschiedener Spielergruppen. Um diese zu adressieren, haben wir einen Datensatz mit 1.727 strukturell korrigierten Regelwerken und 150.000 Bewertungen kuratiert, die mittels Qualitätsbewertung und facettensensibler Stichprobenauswahl ausgewählt wurden. Wir erweitern diese Daten um Mechanics-Dynamics-Aesthetics (MDA)-Reasoning, um die kausale Lücke zwischen geschriebenen Regeln und Spielererfahrung explizit zu überbrücken. Weiter destillieren wir Spieler-Personas und führen MeepleLM ein, ein spezialisiertes Modell, das personaspezifische Denkmuster internalisiert, um das subjektive Feedback verschiedener Spieler-Archetypen genau zu simulieren. Experimente zeigen, dass MeepleLM die neuesten kommerziellen Modelle (z.B. GPT-5.1, Gemini3-Pro) sowohl in der Community-Ausrichtung als auch in der Kritikqualität signifikant übertrifft und in Nutzerstudien zur Bewertung des Nutzens eine Präferenzrate von 70 % erreicht. MeepleLM dient als zuverlässiger virtueller Playtester für allgemeine interaktive Systeme und markiert einen entscheidenden Schritt hin zu einer publikumsorientierten, erfahrungsbewussten Mensch-KI-Kollaboration.
English
Recent advancements have expanded the role of Large Language Models in board games from playing agents to creative co-designers. However, a critical gap remains: current systems lack the capacity to offer constructive critique grounded in the emergent user experience. Bridging this gap is fundamental for harmonizing Human-AI collaboration, as it empowers designers to refine their creations via external perspectives while steering models away from biased or unpredictable outcomes. Automating critique for board games presents two challenges: inferring the latent dynamics connecting rules to gameplay without an explicit engine, and modeling the subjective heterogeneity of diverse player groups. To address these, we curate a dataset of 1,727 structurally corrected rulebooks and 150K reviews selected via quality scoring and facet-aware sampling. We augment this data with Mechanics-Dynamics-Aesthetics (MDA) reasoning to explicitly bridge the causal gap between written rules and player experience. We further distill player personas and introduce MeepleLM, a specialized model that internalizes persona-specific reasoning patterns to accurately simulate the subjective feedback of diverse player archetypes. Experiments demonstrate that MeepleLM significantly outperforms latest commercial models (e.g., GPT-5.1, Gemini3-Pro) in community alignment and critique quality, achieving a 70% preference rate in user studies assessing utility. MeepleLM serves as a reliable virtual playtester for general interactive systems, marking a pivotal step towards audience-aligned, experience-aware Human-AI collaboration.