ChatPaper.aiChatPaper

PlayCoder: LLM-generierter GUI-Code wird spielbar

PlayCoder: Making LLM-Generated GUI Code Playable

April 21, 2026
Autoren: Zhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben starke Ergebnisse in der Codegenerierung erzielt, doch ihre Fähigkeit, GUI-Anwendungen, insbesondere Spiele, zu generieren, ist nach wie vor unzureichend erforscht. Bestehende Benchmarks bewerten die Korrektheit hauptsächlich über Testfälle, die für GUI-Anwendungen ungeeignet sind, da diese Systeme interaktiv, ereignisgesteuert sind und korrekte Zustandsübergänge über Sequenzen von Benutzeraktionen hinweg erfordern. Ihre Bewertung sollte daher Interaktionsabläufe und UI-Logik berücksichtigen und nicht nur Bestehen-/Durchfallen-Ergebnisse. Um dieses Problem zu untersuchen, stellen wir PlayEval vor, einen repository-bewussten Benchmark, der auf 43 multilingualen GUI-Anwendungen in Python, TypeScript und JavaScript basiert. Im Gegensatz zu früheren GUI-Benchmarks, die schwer an Desktop-Umgebungen anzupassen sind, deckt PlayEval sechs Hauptkategorien von GUI-Anwendungen ab und unterstützt direkt die Bewertung von Codegenerierung. Wir schlagen weiterhin Play@k vor, eine Metrik, die misst, ob mindestens einer von *k* generierten Kandidaten end-to-end ohne logische Fehler gespielt werden kann. Um eine zuverlässige Bewertung zu unterstützen, entwickeln wir PlayTester, einen LLM-basierten Agenten, der aufgabenorientierte GUI-Durchläufe durchführt und Logikverstöße automatisch erkennt. Experimente mit 10 state-of-the-art Code-LLMs zeigen, dass diese trotz hoher Kompilierungsraten nahezu null Play@3 erreichen, was große Schwächen bei der Generierung logisch korrekter GUI-Anwendungen offenbart. Um diese Einschränkung zu adressieren, präsentieren wir PlayCoder, einen multi-agenten, repository-bewussten Framework, der GUI-Anwendungscode in einer geschlossenen Schleife generiert, bewertet und iterativ repariert. PlayCoder verbessert sowohl die funktionale Korrektheit als auch die semantische Übereinstimmung für Open-Source- und Closed-Source-Modelle erheblich und erreicht bis zu 38,1 % Exec@3 und 20,3 % Play@3. Fallstudien zeigen weiterhin, dass es stille Logikfehler aufdecken kann, die von traditionellen Metriken übersehen werden, und diese durch gezielte Bearbeitungen behebt.
English
Large language models (LLMs) have achieved strong results in code generation, but their ability to generate GUI applications, especially games, remains insufficiently studied. Existing benchmarks mainly evaluate correctness through test cases, which are inadequate for GUI applications because these systems are interactive, event-driven, and require correct state transitions across sequences of user actions. Their evaluation therefore should consider interaction flows and UI logic rather than only pass/fail outcomes. To study this problem, we introduce PlayEval, a repository-aware benchmark built from 43 multilingual GUI applications in Python, TypeScript, and JavaScript. Unlike prior GUI benchmarks that are difficult to adapt to desktop environments, PlayEval covers six major GUI application categories and directly supports code-generation evaluation. We further propose Play@k, a metric that measures whether at least one of *k* generated candidates can be played end-to-end without logical errors. To support reliable evaluation, we develop PlayTester, an LLM-based agent that performs task-oriented GUI playthroughs and detects logic violations automatically. Experiments on 10 state-of-the-art code LLMs show that, despite high compilation rates, they achieve near-zero Play@3, revealing major weaknesses in generating logically correct GUI applications. To address this limitation, we present PlayCoder, a multi-agent, repository-aware framework that generates, evaluates, and iteratively repairs GUI application code in a closed loop. PlayCoder substantially improves both functional correctness and semantic alignment for open-source and closed-source models, reaching up to 38.1% Exec@3 and 20.3% Play@3. Case studies further show that it can uncover silent logic bugs missed by traditional metrics and fix them through targeted edits.
PDF203April 23, 2026