ChatPaper.aiChatPaper

PlayCoder: Rendere giocabile il codice GUI generato da LLM

PlayCoder: Making LLM-Generated GUI Code Playable

April 21, 2026
Autori: Zhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo
cs.AI

Abstract

I grandi modelli linguistici (LLM) hanno ottenuto risultati solidi nella generazione di codice, ma la loro capacità di generare applicazioni con interfaccia grafica (GUI), in particolare giochi, rimane insufficientemente studiata. I benchmark esistenti valutano principalmente la correttezza attraverso test case, che sono inadeguati per le applicazioni GUI poiché questi sistemi sono interattivi, guidati da eventi e richiedono transizioni di stato corrette attraverso sequenze di azioni utente. La loro valutazione dovrebbe quindi considerare i flussi interattivi e la logica dell'interfaccia utente, piuttosto che solo esiti di superamento/fallimento. Per studiare questo problema, introduciamo PlayEval, un benchmark repository-aware costruito da 43 applicazioni GUI multilingue in Python, TypeScript e JavaScript. A differenza dei precedenti benchmark GUI difficili da adattare agli ambienti desktop, PlayEval copre sei categorie principali di applicazioni GUI e supporta direttamente la valutazione della generazione di codice. Proponiamo inoltre Play@k, una metrica che misura se almeno uno dei *k* candidati generati può essere eseguito dall'inizio alla fine senza errori logici. Per supportare una valutazione affidabile, sviluppiamo PlayTester, un agente basato su LLM che esegue playthrough GUI orientati al compito e rileva automaticamente le violazioni logiche. Esperimenti su 10 code LLM all'avanguardia mostrano che, nonostante alti tassi di compilazione, essi raggiungono uno Play@3 quasi nullo, rivelando gravi carenze nella generazione di applicazioni GUI logicamente corrette. Per affrontare questa limitazione, presentiamo PlayCoder, un framework multi-agente e repository-aware che genera, valuta e ripara iterativamente il codice dell'applicazione GUI in un ciclo chiuso. PlayCoder migliora sostanzialmente sia la correttezza funzionale che l'allineamento semantico per modelli open-source e closed-source, raggiungendo fino al 38,1% di Exec@3 e al 20,3% di Play@3. Casi di studio mostrano inoltre che può individuare bug logici silenti trascurati dalle metriche tradizionali e correggerli tramite modifiche mirate.
English
Large language models (LLMs) have achieved strong results in code generation, but their ability to generate GUI applications, especially games, remains insufficiently studied. Existing benchmarks mainly evaluate correctness through test cases, which are inadequate for GUI applications because these systems are interactive, event-driven, and require correct state transitions across sequences of user actions. Their evaluation therefore should consider interaction flows and UI logic rather than only pass/fail outcomes. To study this problem, we introduce PlayEval, a repository-aware benchmark built from 43 multilingual GUI applications in Python, TypeScript, and JavaScript. Unlike prior GUI benchmarks that are difficult to adapt to desktop environments, PlayEval covers six major GUI application categories and directly supports code-generation evaluation. We further propose Play@k, a metric that measures whether at least one of *k* generated candidates can be played end-to-end without logical errors. To support reliable evaluation, we develop PlayTester, an LLM-based agent that performs task-oriented GUI playthroughs and detects logic violations automatically. Experiments on 10 state-of-the-art code LLMs show that, despite high compilation rates, they achieve near-zero Play@3, revealing major weaknesses in generating logically correct GUI applications. To address this limitation, we present PlayCoder, a multi-agent, repository-aware framework that generates, evaluates, and iteratively repairs GUI application code in a closed loop. PlayCoder substantially improves both functional correctness and semantic alignment for open-source and closed-source models, reaching up to 38.1% Exec@3 and 20.3% Play@3. Case studies further show that it can uncover silent logic bugs missed by traditional metrics and fix them through targeted edits.
PDF203April 23, 2026