PlanViz: Оценка ориентированной на планирование генерации и редактирования изображений для задач компьютерного взаимодействия

Аннотация

Унифицированные мультимодальные модели (UMM) продемонстрировали впечатляющие возможности в генерации реалистичных изображений и поддержке мультимодальных рассуждений. Однако их потенциал в решении задач планирования компьютерных операций, тесно связанных с повседневной жизнью, остается малоизученным. Генерация и редактирование изображений в компьютерных задачах требуют таких способностей, как пространственное мышление и процедурное понимание, и до сих пор неизвестно, обладают ли UMM этими возможностями для выполнения подобных задач. Поэтому мы предлагаем PlanViz — новый эталонный тест, разработанный для оценки генерации и редактирования изображений в контексте компьютерных операций. Для достижения цели оценки мы фокусируемся на подзадачах, часто встречающихся в повседневной жизни и требующих поэтапного планирования. В частности, разработаны три новые подзадачи: планирование маршрутов, построение рабочих диаграмм и отображение веб-интерфейсов. Мы решаем проблемы обеспечения качества данных путем курирования аннотированных человеком вопросов и эталонных изображений, а также внедряем процесс контроля качества. Для решения проблем комплексной и точной оценки предложена адаптивная метрика PlanScore, которая помогает оценивать корректность, визуальное качество и эффективность генерируемых изображений. В ходе экспериментов мы выявляем ключевые ограничения и перспективы для будущих исследований в данной области.

English

Unified multimodal models (UMMs) have shown impressive capabilities in generating natural images and supporting multimodal reasoning. However, their potential in supporting computer-use planning tasks, which are closely related to our lives, remain underexplored. Image generation and editing in computer-use tasks require capabilities like spatial reasoning and procedural understanding, and it is still unknown whether UMMs have these capabilities to finish these tasks or not. Therefore, we propose PlanViz, a new benchmark designed to evaluate image generation and editing for computer-use tasks. To achieve the goal of our evaluation, we focus on sub-tasks which frequently involve in daily life and require planning steps. Specifically, three new sub-tasks are designed: route planning, work diagramming, and web&UI displaying. We address challenges in data quality ensuring by curating human-annotated questions and reference images, and a quality control process. For challenges of comprehensive and exact evaluation, a task-adaptive score, PlanScore, is proposed. The score helps understanding the correctness, visual quality and efficiency of generated images. Through experiments, we highlight key limitations and opportunities for future research on this topic.

PlanViz: Оценка ориентированной на планирование генерации и редактирования изображений для задач компьютерного взаимодействия

PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

Аннотация

Support