PlanViz: Avaliação de Geração e Edição de Imagens Orientadas para Planejamento em Tarefas de Uso Computacional

Resumo

Os modelos multimodais unificados (UMMs) demonstraram capacidades impressionantes na geração de imagens naturais e no apoio ao raciocínio multimodal. No entanto, o seu potencial para apoiar tarefas de planeamento de uso computacional, que estão intimamente relacionadas com as nossas vidas, permanece pouco explorado. A geração e edição de imagens em tarefas de uso computacional exigem capacidades como o raciocínio espacial e a compreensão procedural, sendo ainda desconhecido se os UMMs possuem essas capacidades para concluir estas tarefas. Por conseguinte, propomos o PlanViz, um novo benchmark concebido para avaliar a geração e edição de imagens para tarefas de uso computacional. Para alcançar o objetivo da nossa avaliação, focamo-nos em subtarefas que frequentemente envolvem a vida quotidiana e exigem etapas de planeamento. Especificamente, são concebidas três novas subtarefas: planeamento de rotas, diagramação de trabalho e exibição web e de interface de utilizador (UI). Abordamos os desafios na garantia da qualidade dos dados através da curadoria de questões anotadas manualmente e imagens de referência, e de um processo de controlo de qualidade. Para os desafios de uma avaliação abrangente e exata, é proposta uma pontuação adaptativa à tarefa, o PlanScore. Esta pontuação ajuda a compreender a correção, a qualidade visual e a eficiência das imagens geradas. Através de experiências, destacamos limitações fundamentais e oportunidades para investigação futura sobre este tema.

English

Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.