PlanViz: Evaluierung planungsorientierter Bildgenerierung und -bearbeitung für Computeranwendungsaufgaben

Zusammenfassung

Vereinheitlichte multimodale Modelle (UMMs) haben beeindruckende Fähigkeiten bei der Erzeugung natürlicher Bilder und der Unterstützung multimodaler Reasoning-Prozesse gezeigt. Ihr Potenzial zur Unterstützung von Computer-Nutzungsplanungsaufgaben, die in engem Zusammenhang mit unserem Alltag stehen, bleibt jedoch weitgehend unerforscht. Bildgenerierung und -bearbeitung in Computer-Nutzungsaufgaben erfordern Fähigkeiten wie räumliches Reasoning und prozedurales Verständnis, und es ist noch unbekannt, ob UMMs über diese Fähigkeiten verfügen, um diese Aufgaben zu bewältigen. Daher schlagen wir PlanViz vor, einen neuen Benchmark zur Bewertung von Bildgenerierung und -bearbeitung für Computer-Nutzungsaufgaben. Um das Ziel unserer Evaluation zu erreichen, konzentrieren wir uns auf Teilaufgaben, die häufig im täglichen Leben vorkommen und Planungsschritte erfordern. Konkret werden drei neue Teilaufgaben entwickelt: Routenplanung, Arbeitsdiagrammerstellung sowie Web- und UI-Darstellung. Wir adressieren Herausforderungen bei der Datenqualität durch kuratierte, menschlich annotierte Fragen und Referenzbilder sowie einen Qualitätssicherungsprozess. Für die Herausforderungen einer umfassenden und exakten Evaluation wird ein aufgabenspezifischer Score, der PlanScore, vorgeschlagen. Dieser Score ermöglicht die Bewertung der Korrektheit, visuellen Qualität und Effizienz generierter Bilder. Durch Experimente zeigen wir zentrale Limitationen und Chancen für zukünftige Forschung zu diesem Thema auf.

English

Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.

PlanViz: Evaluierung planungsorientierter Bildgenerierung und -bearbeitung für Computeranwendungsaufgaben

PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

Zusammenfassung

Support