PlayCoder : Rendre le code d'interface graphique généré par LLM jouable

Résumé

Les grands modèles de langage (LLM) ont obtenu des résultats solides en génération de code, mais leur capacité à générer des applications d'interface graphique (GUI), en particulier des jeux, reste insuffisamment étudiée. Les benchmarks existants évaluent principalement la correction via des cas de test, ce qui est inadéquat pour les applications GUI car ces systèmes sont interactifs, pilotés par des événements et nécessitent des transitions d'état correctes sur des séquences d'actions utilisateur. Leur évaluation devrait donc considérer les flux d'interaction et la logique de l'interface utilisateur plutôt que de simples résultats de réussite/échec. Pour étudier ce problème, nous présentons PlayEval, un benchmark sensible au référentiel construit à partir de 43 applications GUI multilingues en Python, TypeScript et JavaScript. Contrairement aux benchmarks GUI antérieurs difficiles à adapter aux environnements de bureau, PlayEval couvre six catégories majeures d'applications GUI et prend directement en charge l'évaluation de la génération de code. Nous proposons en outre Play@k, une métrique qui mesure si au moins un des *k* candidats générés peut être exécuté de bout en bout sans erreurs logiques. Pour supporter une évaluation fiable, nous développons PlayTester, un agent basé sur un LLM qui effectue des parcours GUI orientés tâche et détecte automatiquement les violations de logique. Les expériences sur 10 LLM de code state-of-the-art montrent que, malgré des taux de compilation élevés, ils atteignent un Play@3 proche de zéro, révélant des faiblesses majeures dans la génération d'applications GUI logiquement correctes. Pour résoudre cette limitation, nous présentons PlayCoder, un framework multi-agent et sensible au référentiel qui génère, évalue et répare itérativement le code d'application GUI en boucle fermée. PlayCoder améliore substantiellement à la fois la correction fonctionnelle et l'alignement sémantique pour les modèles open-source et propriétaires, atteignant jusqu'à 38,1% Exec@3 et 20,3% Play@3. Des études de cas montrent en outre qu'il peut découvrir des boges logiques silencieux manqués par les métriques traditionnelles et les corriger via des modifications ciblées.

English

Large language models (LLMs) have achieved strong results in code generation, but their ability to generate GUI applications, especially games, remains insufficiently studied. Existing benchmarks mainly evaluate correctness through test cases, which are inadequate for GUI applications because these systems are interactive, event-driven, and require correct state transitions across sequences of user actions. Their evaluation therefore should consider interaction flows and UI logic rather than only pass/fail outcomes. To study this problem, we introduce PlayEval, a repository-aware benchmark built from 43 multilingual GUI applications in Python, TypeScript, and JavaScript. Unlike prior GUI benchmarks that are difficult to adapt to desktop environments, PlayEval covers six major GUI application categories and directly supports code-generation evaluation. We further propose Play@k, a metric that measures whether at least one of *k* generated candidates can be played end-to-end without logical errors. To support reliable evaluation, we develop PlayTester, an LLM-based agent that performs task-oriented GUI playthroughs and detects logic violations automatically. Experiments on 10 state-of-the-art code LLMs show that, despite high compilation rates, they achieve near-zero Play@3, revealing major weaknesses in generating logically correct GUI applications. To address this limitation, we present PlayCoder, a multi-agent, repository-aware framework that generates, evaluates, and iteratively repairs GUI application code in a closed loop. PlayCoder substantially improves both functional correctness and semantic alignment for open-source and closed-source models, reaching up to 38.1% Exec@3 and 20.3% Play@3. Case studies further show that it can uncover silent logic bugs missed by traditional metrics and fix them through targeted edits.

PlayCoder : Rendre le code d'interface graphique généré par LLM jouable

PlayCoder: Making LLM-Generated GUI Code Playable

Résumé

Support