Понимание возможностей генеративного ИИ в повседневных задачах редактирования изображений
Understanding Generative AI Capabilities in Everyday Image Editing Tasks
May 22, 2025
Авторы: Mohammad Reza Taesiri, Brandon Collins, Logan Bolton, Viet Dac Lai, Franck Dernoncourt, Trung Bui, Anh Totti Nguyen
cs.AI
Аннотация
Генеративный ИИ (GenAI) обладает значительным потенциалом для автоматизации повседневных задач редактирования изображений, особенно после недавнего выпуска GPT-4o 25 марта 2025 года. Однако какие объекты чаще всего хотят редактировать люди? Какие виды редактирования они предпочитают (например, удаление или стилизация объекта)? Предпочитают ли люди точные правки с предсказуемым результатом или более творческие подходы? Понимая характеристики реальных запросов и соответствующих правок, выполненных фрилансерами-мастерами фоторедактирования, можем ли мы извлечь уроки для улучшения ИИ-редакторов и определить, какие типы запросов могут быть успешно обработаны текущими ИИ-редакторами? В данной статье мы представляем уникальное исследование, посвящённое этим вопросам, анализируя 83 тыс. запросов за последние 12 лет (2013–2025) в сообществе Reddit, где было собрано 305 тыс. правок от мастеров PSR. Согласно оценкам людей, лишь около 33% запросов могут быть выполнены лучшими ИИ-редакторами (включая GPT-4o, Gemini-2.0-Flash, SeedEdit). Интересно, что ИИ-редакторы хуже справляются с малотворческими запросами, требующими точного редактирования, чем с более открытыми задачами. Они часто испытывают трудности с сохранением идентичности людей и животных и нередко вносят не запрошенные улучшения. С другой стороны, судьи на основе визуально-языковых моделей (например, o1) оценивают иначе, чем люди, и могут предпочитать правки ИИ больше, чем человеческие. Код и качественные примеры доступны по ссылке: https://psrdataset.github.io.
English
Generative AI (GenAI) holds significant promise for automating everyday image
editing tasks, especially following the recent release of GPT-4o on March 25,
2025. However, what subjects do people most often want edited? What kinds of
editing actions do they want to perform (e.g., removing or stylizing the
subject)? Do people prefer precise edits with predictable outcomes or highly
creative ones? By understanding the characteristics of real-world requests and
the corresponding edits made by freelance photo-editing wizards, can we draw
lessons for improving AI-based editors and determine which types of requests
can currently be handled successfully by AI editors? In this paper, we present
a unique study addressing these questions by analyzing 83k requests from the
past 12 years (2013-2025) on the Reddit community, which collected 305k
PSR-wizard edits. According to human ratings, approximately only 33% of
requests can be fulfilled by the best AI editors (including GPT-4o,
Gemini-2.0-Flash, SeedEdit). Interestingly, AI editors perform worse on
low-creativity requests that require precise editing than on more open-ended
tasks. They often struggle to preserve the identity of people and animals, and
frequently make non-requested touch-ups. On the other side of the table, VLM
judges (e.g., o1) perform differently from human judges and may prefer AI edits
more than human edits. Code and qualitative examples are available at:
https://psrdataset.github.ioSummary
AI-Generated Summary