PlanViz: Evaluación de la Generación y Edición de Imágenes Orientadas a la Planificación para Tareas de Uso Informático

Resumen

Los modelos multimodales unificados (UMM) han demostrado capacidades impresionantes para generar imágenes naturales y apoyar el razonamiento multimodal. Sin embargo, su potencial para apoyar tareas de planificación de uso informático, que están estrechamente relacionadas con nuestra vida cotidiana, sigue sin explorarse suficientemente. La generación y edición de imágenes en tareas de uso informático requieren capacidades como el razonamiento espacial y la comprensión procedural, y aún se desconoce si los UMM poseen estas capacidades para completar dichas tareas. Por lo tanto, proponemos PlanViz, un nuevo benchmark diseñado para evaluar la generación y edición de imágenes para tareas de uso informático. Para lograr el objetivo de nuestra evaluación, nos centramos en subtareas que involucran frecuentemente la vida diaria y requieren pasos de planificación. Específicamente, se diseñan tres nuevas subtareas: planificación de rutas, diagramación de flujos de trabajo y visualización de interfaces web y de usuario. Abordamos los desafíos de garantizar la calidad de los datos mediante la curación de preguntas anotadas por humanos e imágenes de referencia, y un proceso de control de calidad. Para los desafíos de una evaluación exhaustiva y exacta, se propone una puntuación adaptativa a la tarea, el PlanScore. Esta puntuación ayuda a comprender la corrección, la calidad visual y la eficiencia de las imágenes generadas. A través de experimentos, destacamos limitaciones clave y oportunidades para futuras investigaciones sobre este tema.

English

Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.