PlayCoder: Haciendo que el Código GUI Generado por LLM Sea Jugable
PlayCoder: Making LLM-Generated GUI Code Playable
April 21, 2026
Autores: Zhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo
cs.AI
Resumen
Los modelos de lenguaje grande (LLM) han logrado resultados sólidos en generación de código, pero su capacidad para generar aplicaciones GUI, especialmente juegos, sigue estando insuficientemente estudiada. Los puntos de referencia existentes evalúan principalmente la corrección mediante casos de prueba, los cuales son inadecuados para aplicaciones GUI porque estos sistemas son interactivos, dirigidos por eventos y requieren transiciones de estado correctas a través de secuencias de acciones del usuario. Por lo tanto, su evaluación debería considerar flujos de interacción y lógica de la interfaz de usuario, en lugar de solo resultados de aprobado/reprobado. Para estudiar este problema, presentamos PlayEval, un punto de referencia consciente del repositorio construido a partir de 43 aplicaciones GUI multilingües en Python, TypeScript y JavaScript. A diferencia de los puntos de referencia GUI anteriores que son difíciles de adaptar a entornos de escritorio, PlayEval cubre seis categorías principales de aplicaciones GUI y admite directamente la evaluación de generación de código. Además, proponemos Play@k, una métrica que mide si al menos uno de *k* candidatos generados puede ejecutarse de principio a fin sin errores lógicos. Para respaldar una evaluación confiable, desarrollamos PlayTester, un agente basado en LLM que realiza ejecuciones GUI orientadas a tareas y detecta violaciones lógicas automáticamente. Los experimentos con 10 LLM de código de última generación muestran que, a pesar de las altas tasas de compilación, logran un Play@3 cercano a cero, revelando grandes debilidades en la generación de aplicaciones GUI lógicamente correctas. Para abordar esta limitación, presentamos PlayCoder, un marco de trabajo multiagente y consciente del repositorio que genera, evalúa y repara iterativamente el código de aplicaciones GUI en un bucle cerrado. PlayCoder mejora sustancialmente tanto la corrección funcional como la alineación semántica para modelos de código abierto y cerrado, alcanzando hasta un 38.1% en Exec@3 y un 20.3% en Play@3. Los estudios de caso muestran además que puede descubrir errores lógicos silenciosos pasados por alto por las métricas tradicionales y corregirlos mediante ediciones específicas.
English
Large language models (LLMs) have achieved strong results in code generation, but their ability to generate GUI applications, especially games, remains insufficiently studied. Existing benchmarks mainly evaluate correctness through test cases, which are inadequate for GUI applications because these systems are interactive, event-driven, and require correct state transitions across sequences of user actions. Their evaluation therefore should consider interaction flows and UI logic rather than only pass/fail outcomes. To study this problem, we introduce PlayEval, a repository-aware benchmark built from 43 multilingual GUI applications in Python, TypeScript, and JavaScript. Unlike prior GUI benchmarks that are difficult to adapt to desktop environments, PlayEval covers six major GUI application categories and directly supports code-generation evaluation. We further propose Play@k, a metric that measures whether at least one of *k* generated candidates can be played end-to-end without logical errors. To support reliable evaluation, we develop PlayTester, an LLM-based agent that performs task-oriented GUI playthroughs and detects logic violations automatically. Experiments on 10 state-of-the-art code LLMs show that, despite high compilation rates, they achieve near-zero Play@3, revealing major weaknesses in generating logically correct GUI applications. To address this limitation, we present PlayCoder, a multi-agent, repository-aware framework that generates, evaluates, and iteratively repairs GUI application code in a closed loop. PlayCoder substantially improves both functional correctness and semantic alignment for open-source and closed-source models, reaching up to 38.1% Exec@3 and 20.3% Play@3. Case studies further show that it can uncover silent logic bugs missed by traditional metrics and fix them through targeted edits.