ChatPaper.aiChatPaper

WebCompass: К мультимодальной оценке веб-кодирования для языковых моделей программирования

WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models

April 20, 2026
Авторы: Xinping Lei, Xinyu Che, Junqi Xiong, Chenchen Zhang, Yukai Huang, Chenyu Zhou, Haoyang Huang, Minghao Liu, Letian Zhu, Hongyi Ye, Jinhua Hao, Ken Deng, Zizheng Zhan, Han Li, Dailin Li, Yifan Yao, Ming Sun, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

Аннотация

Крупные языковые модели быстро превращаются в интерактивных программных агентов, способных к сквозной веб-разработке, однако существующие бенчмарки оценивают лишь узкие срезы этих возможностей, как правило, генерацию по текстовому условию со статическими метриками корректности, оставляя визуальное соответствие, качество взаимодействия и рассуждения на уровне кодовой базы в значительной степени неизмеренными. Мы представляем WebCompass, мультимодальный бенчмарк, обеспечивающий унифицированную оценку жизненного цикла способностей к веб-инжинирингу. Признавая, что реальная веб-разработка представляет собой итеративный цикл генерации, редактирования и исправления, WebCompass охватывает три модальности входных данных (текст, изображение, видео) и три типа задач (генерация, редактирование, исправление), формируя семь категорий задач, которые отражают профессиональные рабочие процессы. С помощью многоэтапного конвейера с участием человека мы отбираем примеры, покрывающие 15 доменов генерации, 16 типов операций редактирования и 11 типов дефектов для исправления, каждый с аннотацией уровня сложности Легкий/Средний/Сложный. Для оценки мы применяем контролируемый чек-листом протокол LLM-as-a-Judge для редактирования и исправления и предлагаем новую парадигму Agent-as-a-Judge для генерации, при которой агент автономно исполняет сгенерированные веб-сайты в реальном браузере, исследует интерактивное поведение через Model Context Protocol (MCP) и итеративно синтезирует целевые тестовые сценарии, близко приближаясь к приемочному тестированию человеком. Мы оцениваем репрезентативные проприетарные и открытые модели и наблюдаем, что: (1) проприетарные модели остаются существенно более мощными и сбалансированными; (2) редактирование и исправление демонстрируют различные профили сложности, причем исправление лучше сохраняет интерактивность, но остается сложным для выполнения; (3) эстетика является наиболее устойчивым узким местом, особенно для открытых моделей; и (4) выбор фреймворка существенно влияет на результаты, причем Vue стабильно вызывает сложности, тогда как React и Vanilla/HTML показывают более сильные результаты в зависимости от типа задачи.
English
Large language models are rapidly evolving into interactive coding agents capable of end-to-end web coding, yet existing benchmarks evaluate only narrow slices of this capability, typically text-conditioned generation with static-correctness metrics, leaving visual fidelity, interaction quality, and codebase-level reasoning largely unmeasured. We introduce WebCompass, a multimodal benchmark that provides unified lifecycle evaluation of web engineering capability. Recognizing that real-world web coding is an iterative cycle of generation, editing, and repair, WebCompass spans three input modalities (text, image, video) and three task types (generation, editing, repair), yielding seven task categories that mirror professional workflows. Through a multi-stage, human-in-the-loop pipeline, we curate instances covering 15 generation domains, 16 editing operation types, and 11 repair defect types, each annotated at Easy/Medium/Hard levels. For evaluation, we adopt a checklist-guided LLM-as-a-Judge protocol for editing and repair, and propose a novel Agent-as-a-Judge paradigm for generation that autonomously executes generated websites in a real browser, explores interactive behaviors via the Model Context Protocol (MCP), and iteratively synthesizes targeted test cases, closely approximating human acceptance testing. We evaluate representative closed-source and open-source models and observe that: (1) closed-source models remain substantially stronger and more balanced; (2) editing and repair exhibit distinct difficulty profiles, with repair preserving interactivity better but remaining execution-challenging; (3) aesthetics is the most persistent bottleneck, especially for open-source models; and (4) framework choice materially affects outcomes, with Vue consistently challenging while React and Vanilla/HTML perform more strongly depending on task type.
PDF192April 22, 2026