WebRISE: Vereistengeïnduceerde toestandsevaluatie voor door MLLM gegenereerde webartefacten

Samenvatting

Bestaande benchmarks voor door MLLM gegenereerde webartefacten beoordelen interactie op basis van lokale evidentie en missen de door vereisten geïnduceerde toestanden en overgangen die bepalen of een pagina werkt. Wij introduceren WebRISE, dat taakvereisten compileert tot Interactiecontractgrafieken (ICG's) van waarneembare toestanden, gebruikersintentie-overgangen en DOM/visuele asserts voor implementatie-agnostische browseruitvoering. WebRISE omvat 442 taken over vijf invoermodaliteiten (Tekst, Markdown, Schets, Afbeelding, Video), met 5.495 overgangen en 5.271 vereistencontroles die door gebruikers gestelde functies scheiden van impliciete productniveau-beperkingen. Bij 14 MLLM's bereikt zelfs het sterkste model slechts 65,6% transitievaliditeit en 66,3% vereistendekking, en visuele kwaliteit is geen proxy voor gedrag (Qwen3.6-35B-A3B op Markdown: V=80,8 doch T=15,5). Video geeft het sterkste interactiesignaal (+10,6 pp impliciete dekking ten opzichte van Tekst), terwijl impliciete beperkingen blijven bestaan; defectinjectie toont aan dat ICG-gebaseerde scoring statusfouten detecteert met een 2- tot 16-voudige snelheid ten opzichte van checkpoint-stijl evaluatie.

English

Existing benchmarks for MLLM-generated web artifacts assess interaction through local evidence and miss the requirement-induced states and transitions that determine whether a page works. We introduce WebRISE, which compiles task requirements into Interaction Contract Graphs (ICGs) of observable states, user-intent transitions, and DOM/visual assertions for implementation-agnostic browser execution. WebRISE spans 442 tasks across five input modalities (Text, Markdown, Sketch, Image, Video), with 5,495 transitions and 5,271 requirement checks that separate user-stated functions from implicit product-level constraints. Across 14 MLLMs, even the strongest model reaches only 65.6% transition validity and 66.3% requirement coverage, and visual quality is no proxy for behavior (Qwen3.6-35B-A3B on Markdown: V=80.8 yet T=15.5). Video gives the strongest interaction signal (+10.6 pp implicit coverage over Text), while implicit constraints persist; defect injection shows ICG-based scoring detects state errors at 2-16x the rate of checkpoint-style evaluation.