PlanViz : Évaluation de la génération et de l'édition d'images orientées planification pour les tâches informatiques

Résumé

Les modèles multimodaux unifiés (UMM) ont démontré des capacités impressionnantes pour générer des images naturelles et soutenir le raisonnement multimodal. Cependant, leur potentiel pour soutenir les tâches de planification de l'utilisation informatique, qui sont étroitement liées à notre vie quotidienne, reste sous-exploré. La génération et l'édition d'images dans les tâches informatiques nécessitent des capacités telles que le raisonnement spatial et la compréhension procédurale, et on ignore encore si les UMM possèdent ces capacités pour accomplir ces tâches. Par conséquent, nous proposons PlanViz, un nouveau benchmark conçu pour évaluer la génération et l'édition d'images pour les tâches informatiques. Pour atteindre l'objectif de notre évaluation, nous nous concentrons sur des sous-tâches fréquemment rencontrées dans la vie quotidienne et nécessitant des étapes de planification. Plus précisément, trois nouvelles sous-tâches sont conçues : la planification d'itinéraire, la création de diagrammes de travail et l'affichage web & interface utilisateur. Nous relevons les défis liés à la qualité des données en créant des questions annotées manuellement et des images de référence, ainsi qu'un processus de contrôle qualité. Pour les défis d'une évaluation complète et précise, un score adaptatif aux tâches, PlanScore, est proposé. Ce score aide à comprendre l'exactitude, la qualité visuelle et l'efficacité des images générées. Par des expériences, nous mettons en évidence les limitations clés et les opportunités pour les recherches futures sur ce sujet.

English

Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.

PlanViz : Évaluation de la génération et de l'édition d'images orientées planification pour les tâches informatiques

PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

Résumé

Support