ChatPaper.aiChatPaper

PlayCoder: Создание исполняемого GUI-кода, сгенерированного большими языковыми моделями

PlayCoder: Making LLM-Generated GUI Code Playable

April 21, 2026
Авторы: Zhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo
cs.AI

Аннотация

Крупные языковые модели (LLМ) демонстрируют высокие результаты в генерации кода, однако их способность создавать GUI-приложения, особенно игры, остается недостаточно изученной. Существующие бенчмарки в основном оценивают корректность через тестовые случаи, что недостаточно для GUI-приложений, поскольку эти системы являются интерактивными, событийно-ориентированными и требуют корректных переходов состояний в последовательностях пользовательских действий. Их оценка, следовательно, должна учитывать потоки взаимодействия и логику интерфейса, а не только результаты прохождения/непрохождения тестов. Для изучения этой проблемы мы представляем PlayEval — репозиторий-ориентированный бенчмарк, созданный на основе 43 мультиязычных GUI-приложений на Python, TypeScript и JavaScript. В отличие от предыдущих бенчмарков для GUI, которые сложно адаптировать к десктопным средам, PlayEval охватывает шесть основных категорий GUI-приложений и напрямую поддерживает оценку генерации кода. Мы также предлагаем Play@k — метрику, которая измеряет, может ли хотя бы один из *k* сгенерированных кандидатов быть пройден от начала до конца без логических ошибок. Для обеспечения надежной оценки мы разрабатываем PlayTester — агента на основе LLМ, который выполняет целевые прохождения GUI и автоматически обнаруживает нарушения логики. Эксперименты с 10 передовыми кодогенерирующими LLМ показывают, что, несмотря на высокие показатели компиляции, они достигают near-zero Play@3, выявляя серьезные слабости в генерации логически корректных GUI-приложений. Для решения этой проблемы мы представляем PlayCoder — многоагентную, репозиторий-ориентированную среду, которая генерирует, оценивает и итеративно исправляет код GUI-приложений в замкнутом цикле. PlayCoder существенно улучшает как функциональную корректность, так и семантическое соответствие для моделей с открытым и закрытым исходным кодом, достигая до 38,1% Exec@3 и 20,3% Play@3. Кейс-стади дополнительно показывают, что система может выявлять скрытые логические ошибки, пропущенные традиционными метриками, и исправлять их с помощью целевых правок.
English
Large language models (LLMs) have achieved strong results in code generation, but their ability to generate GUI applications, especially games, remains insufficiently studied. Existing benchmarks mainly evaluate correctness through test cases, which are inadequate for GUI applications because these systems are interactive, event-driven, and require correct state transitions across sequences of user actions. Their evaluation therefore should consider interaction flows and UI logic rather than only pass/fail outcomes. To study this problem, we introduce PlayEval, a repository-aware benchmark built from 43 multilingual GUI applications in Python, TypeScript, and JavaScript. Unlike prior GUI benchmarks that are difficult to adapt to desktop environments, PlayEval covers six major GUI application categories and directly supports code-generation evaluation. We further propose Play@k, a metric that measures whether at least one of *k* generated candidates can be played end-to-end without logical errors. To support reliable evaluation, we develop PlayTester, an LLM-based agent that performs task-oriented GUI playthroughs and detects logic violations automatically. Experiments on 10 state-of-the-art code LLMs show that, despite high compilation rates, they achieve near-zero Play@3, revealing major weaknesses in generating logically correct GUI applications. To address this limitation, we present PlayCoder, a multi-agent, repository-aware framework that generates, evaluates, and iteratively repairs GUI application code in a closed loop. PlayCoder substantially improves both functional correctness and semantic alignment for open-source and closed-source models, reaching up to 38.1% Exec@3 and 20.3% Play@3. Case studies further show that it can uncover silent logic bugs missed by traditional metrics and fix them through targeted edits.
PDF203April 23, 2026