PlanViz: Valutazione della Generazione e Modifica di Immagini Orientate alla Pianificazione per Attività di Utilizzo del Computer

Abstract

I modelli multimodali unificati (UMM) hanno dimostrato capacità impressionanti nella generazione di immagini naturali e nel supportare il ragionamento multimodale. Tuttavia, il loro potenziale nel supportare compiti di pianificazione dell'uso del computer, che sono strettamente correlati alla nostra vita quotidiana, rimane inesplorato. La generazione e la modifica di immagini in compiti di uso del computer richiedono capacità come il ragionamento spaziale e la comprensione procedurale, e non è ancora noto se gli UMM possiedano queste capacità per portare a termine tali compiti. Pertanto, proponiamo PlanViz, un nuovo benchmark progettato per valutare la generazione e la modifica di immagini per compiti di uso del computer. Per raggiungere l'obiettivo della nostra valutazione, ci concentriamo su sotto-compiti che coinvolgono frequentemente la vita quotidiana e richiedono passaggi di pianificazione. Nello specifico, sono stati progettati tre nuovi sotto-compiti: pianificazione di percorsi, diagrammazione del lavoro e visualizzazione di interfacce web e utente (UI). Affrontiamo le sfide relative alla garanzia della qualità dei dati attraverso la cura di domande annotate da umani e immagini di riferimento, e un processo di controllo qualità. Per le sfide di una valutazione completa ed esatta, viene proposto un punteggio adattivo al compito, il PlanScore. Il punteggio aiuta a comprendere la correttezza, la qualità visiva e l'efficienza delle immagini generate. Attraverso esperimenti, evidenziamo le principali limitazioni e opportunità per la ricerca futura su questo argomento.

English

Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.

PlanViz: Valutazione della Generazione e Modifica di Immagini Orientate alla Pianificazione per Attività di Utilizzo del Computer

PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

Abstract

Support