WebCompass : Vers une évaluation multimodale du codage web pour les modèles de langage de programmation
WebCompass: Towards Multimodal Web Coding Evaluation for Code Language Models
April 20, 2026
Auteurs: Xinping Lei, Xinyu Che, Junqi Xiong, Chenchen Zhang, Yukai Huang, Chenyu Zhou, Haoyang Huang, Minghao Liu, Letian Zhu, Hongyi Ye, Jinhua Hao, Ken Deng, Zizheng Zhan, Han Li, Dailin Li, Yifan Yao, Ming Sun, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
Résumé
Les grands modèles de langage évoluent rapidement en agents de codage interactifs capables de réaliser du développement web de bout en bout. Pourtant, les benchmarks existants n'évaluent que des aspects restreints de cette capacité, généralement la génération conditionnée par du texte avec des métriques de correction statique, laissant la fidélité visuelle, la qualité des interactions et le raisonnement au niveau de la base de code largement non mesurés. Nous présentons WebCompass, un benchmark multimodal qui fournit une évaluation unifiée du cycle de vie des capacités en ingénierie web. Conscient que le codage web réel est un cycle itératif de génération, d'édition et de correction, WebCompass couvre trois modalités d'entrée (texte, image, vidéo) et trois types de tâches (génération, édition, correction), produisant sept catégories de tâches qui reflètent les workflows professionnels. Grâce à un pipeline multi-étapes intégrant l'humain, nous constituons des instances couvrant 15 domaines de génération, 16 types d'opérations d'édition et 11 types de défauts de correction, chacun annoté aux niveaux Facile/Moyen/Difficile. Pour l'évaluation, nous adoptons un protocole LLM-comme-Juge guidé par une checklist pour l'édition et la correction, et proposons un nouveau paradigme Agent-comme-Juge pour la génération. Celui-ci exécute de manière autonome les sites web générés dans un navigateur réel, explore les comportements interactifs via le Model Context Protocol (MCP) et synthétise itérativement des cas de test ciblés, se rapprochant ainsi des tests d'acceptation humains. Nous évaluons des modèles propriétaires et open-source représentatifs et observons que : (1) les modèles propriétaires restent nettement plus performants et équilibrés ; (2) l'édition et la correction présentent des profils de difficulté distincts, la correction préservant mieux l'interactivité mais restant difficile au niveau de l'exécution ; (3) l'esthétique est le goulot d'étranglement le plus persistant, surtout pour les modèles open-source ; et (4) le choix du framework affecte sensiblement les résultats, Vue étant constamment difficile tandis que React et Vanilla/HTML performent mieux selon le type de tâche.
English
Large language models are rapidly evolving into interactive coding agents capable of end-to-end web coding, yet existing benchmarks evaluate only narrow slices of this capability, typically text-conditioned generation with static-correctness metrics, leaving visual fidelity, interaction quality, and codebase-level reasoning largely unmeasured. We introduce WebCompass, a multimodal benchmark that provides unified lifecycle evaluation of web engineering capability. Recognizing that real-world web coding is an iterative cycle of generation, editing, and repair, WebCompass spans three input modalities (text, image, video) and three task types (generation, editing, repair), yielding seven task categories that mirror professional workflows. Through a multi-stage, human-in-the-loop pipeline, we curate instances covering 15 generation domains, 16 editing operation types, and 11 repair defect types, each annotated at Easy/Medium/Hard levels. For evaluation, we adopt a checklist-guided LLM-as-a-Judge protocol for editing and repair, and propose a novel Agent-as-a-Judge paradigm for generation that autonomously executes generated websites in a real browser, explores interactive behaviors via the Model Context Protocol (MCP), and iteratively synthesizes targeted test cases, closely approximating human acceptance testing. We evaluate representative closed-source and open-source models and observe that: (1) closed-source models remain substantially stronger and more balanced; (2) editing and repair exhibit distinct difficulty profiles, with repair preserving interactivity better but remaining execution-challenging; (3) aesthetics is the most persistent bottleneck, especially for open-source models; and (4) framework choice materially affects outcomes, with Vue consistently challenging while React and Vanilla/HTML perform more strongly depending on task type.