ChatPaper.aiChatPaper

WebRISE: Avaliação de Estado Induzida por Requisitos para Artefatos Web Gerados por MLLM

WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts

June 2, 2026
Autores: Yuxin Meng, Yuhan Suo, Junjie Wang, Yuhan Sun, Yiyao Yu, Ruixu Zhang, Ruining Hu, Yubin Wang, Shouwei Ruan, Bin Wang, Yuxiang Zhang, Yujiu Yang
cs.AI

Resumo

Os benchmarks existentes para artefatos web gerados por MLLM avaliam a interação por meio de evidências locais e ignoram os estados e transições induzidos por requisitos que determinam se uma página funciona. Apresentamos o WebRISE, que compila requisitos de tarefas em Grafos de Contrato de Interação (ICGs) de estados observáveis, transições de intenção do usuário e asserções DOM/visuais para execução de navegador independente de implementação. O WebRISE abrange 442 tarefas em cinco modalidades de entrada (Texto, Markdown, Esboço, Imagem, Vídeo), com 5.495 transições e 5.271 verificações de requisitos que separam funções declaradas pelo usuário de restrições implícitas no nível do produto. Em 14 MLLMs, mesmo o modelo mais forte alcança apenas 65,6% de validade de transição e 66,3% de cobertura de requisitos, e a qualidade visual não é um substituto para o comportamento (Qwen3.6-35B-A3B em Markdown: V=80,8 mas T=15,5). O vídeo fornece o sinal de interação mais forte (+10,6 pp de cobertura implícita em relação ao Texto), enquanto as restrições implícitas persistem; a injeção de defeitos mostra que a pontuação baseada em ICG detecta erros de estado a uma taxa 2 a 16 vezes maior que a avaliação no estilo checkpoint.
English
Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the requirement-induced states and transitions that determine whether a page works. We introduce WebRISE, which compiles task requirements into Interaction Contract Graphs (ICGs) of observable states, user-intent transitions, and DOM/visual assertions for implementation-agnostic browser execution. WebRISE spans 442 tasks across five input modalities (Text, Markdown, Sketch, Image, Video), with 5,495 transitions and 5,271 requirement checks that separate user-stated functions from implicit product-level constraints. Across 14 MLLMs, even the strongest model reaches only 65.6% transition validity and 66.3% requirement coverage, and visual quality is no proxy for behavior (Qwen3.6-35B-A3B on Markdown: V=80.8 yet T=15.5). Video gives the strongest interaction signal (+10.6 pp implicit coverage over Text), while implicit constraints persist; defect injection shows ICG-based scoring detects state errors at 2-16x the rate of checkpoint-style evaluation.