PlanViz: Evaluatie van planningsgerichte beeldgeneratie en -bewerking voor computertaken

Samenvatting

Unified multimodal modellen (UMM's) hebben indrukwekkende capaciteiten getoond in het genereren van natuurlijke beelden en het ondersteunen van multimodale redeneertaken. Hun potentieel voor het ondersteunen van computervaardigheidsplanningstaken, die nauw verbonden zijn met ons dagelijks leven, blijft echter onderbelicht. Beeldgeneratie en -bewerking in computervaardigheidstaken vereisen capaciteiten zoals ruimtelijk redeneren en procedureel begrip, en het is nog onbekend of UMM's over deze capaciteiten beschikken om deze taken te voltooien. Daarom stellen wij PlanViz voor, een nieuwe benchmark ontworpen om beeldgeneratie en -bewerking voor computervaardigheidstaken te evalueren. Om het doel van onze evaluatie te bereiken, richten we ons op subtaken die frequent voorkomen in het dagelijks leven en planningstappen vereisen. Concreet worden drie nieuwe subtaken ontworpen: routeplanning, werkdiagrammen en web- & UI-weergave. Wij pakken de uitdagingen op het gebied van data-kwaliteit aan door het samenstellen van door mensen geannoteerde vragen en referentiebeelden, en een kwaliteitscontroleproces. Voor de uitdagingen van een uitgebreide en exacte evaluatie wordt een taakadaptieve score, PlanScore, voorgesteld. Deze score helpt bij het begrijpen van de correctheid, visuele kwaliteit en efficiëntie van gegenereerde beelden. Door middel van experimenten belichten we cruciale beperkingen en kansen voor toekomstig onderzoek op dit gebied.

English

Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.

PlanViz: Evaluatie van planningsgerichte beeldgeneratie en -bewerking voor computertaken

PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

Samenvatting

Support