ChatPaper.aiChatPaper

PlanViz: 컴퓨터 사용 작업을 위한 계획 지향적 이미지 생성 및 편집 평가

PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

February 6, 2026
저자: Junxian Li, Kai Liu, Leyang Chen, Weida Wang, Zhixin Wang, Jiaqi Xu, Fan Li, Renjing Pei, Linghe Kong, Yulun Zhang
cs.AI

초록

통합 멀티모달 모델(UMM)은 자연스러운 이미지 생성과 멀티모달 추론 지원에서 인상적인 능력을 보여주고 있습니다. 그러나 일상생활과 밀접한 관련이 있는 컴퓨터 사용 계획 수립 작업을 지원하는 잠재력은 아직 충분히 탐구되지 않았습니다. 컴퓨터 사용 작업에서의 이미지 생성 및 편집은 공간 추론 및 절차적 이해와 같은 능력을 요구하며, UMM이 이러한 작업을 완수할 만한 능력을 지니고 있는지는 여전히 알려지지 않았습니다. 이에 우리는 컴퓨터 사용 작업을 위한 이미지 생성 및 편집 성능을 평가하기 위해 새로운 벤치마크인 PlanViz를 제안합니다. 평가 목표를 달성하기 위해 우리는 일상에서 빈번히 발생하고 계획 단계를 필요로 하는 하위 작업에 집중합니다. 구체적으로 경로 계획, 작업 다이어그램 작성, 웹 및 UI 표시라는 세 가지 새로운 하위 작업을 설계하였습니다. 인간이 주석을 단 질문과 참조 이미지를 선별하고 품질 관리 과정을 통해 데이터 품질 보장의 어려움을 해결합니다. 포괄적이고 정확한 평가의 과제를 위해 작업 적응형 점수인 PlanScore를 제안합니다. 이 점수는 생성된 이미지의 정확성, 시각적 품질 및 효율성 이해에 도움을 줍니다. 실험을 통해 이 주제에 대한 향후 연구의 주요 한계점과 기회를 부각합니다.
English
Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.
PDF52March 16, 2026