Понимание возможностей генеративного ИИ в повседневных задачах редактирования изображений

Аннотация

Генеративный ИИ (GenAI) обладает значительным потенциалом для автоматизации повседневных задач редактирования изображений, особенно после недавнего выпуска GPT-4o 25 марта 2025 года. Однако какие объекты чаще всего хотят редактировать люди? Какие виды редактирования они предпочитают (например, удаление или стилизация объекта)? Предпочитают ли люди точные правки с предсказуемым результатом или более творческие подходы? Понимая характеристики реальных запросов и соответствующих правок, выполненных фрилансерами-мастерами фоторедактирования, можем ли мы извлечь уроки для улучшения ИИ-редакторов и определить, какие типы запросов могут быть успешно обработаны текущими ИИ-редакторами? В данной статье мы представляем уникальное исследование, посвящённое этим вопросам, анализируя 83 тыс. запросов за последние 12 лет (2013–2025) в сообществе Reddit, где было собрано 305 тыс. правок от мастеров PSR. Согласно оценкам людей, лишь около 33% запросов могут быть выполнены лучшими ИИ-редакторами (включая GPT-4o, Gemini-2.0-Flash, SeedEdit). Интересно, что ИИ-редакторы хуже справляются с малотворческими запросами, требующими точного редактирования, чем с более открытыми задачами. Они часто испытывают трудности с сохранением идентичности людей и животных и нередко вносят не запрошенные улучшения. С другой стороны, судьи на основе визуально-языковых моделей (например, o1) оценивают иначе, чем люди, и могут предпочитать правки ИИ больше, чем человеческие. Код и качественные примеры доступны по ссылке: https://psrdataset.github.io.

English

Generative AI (GenAI) holds significant promise for automating everyday image editing tasks, especially following the recent release of GPT-4o on March 25, 2025. However, what subjects do people most often want edited? What kinds of editing actions do they want to perform (e.g., removing or stylizing the subject)? Do people prefer precise edits with predictable outcomes or highly creative ones? By understanding the characteristics of real-world requests and the corresponding edits made by freelance photo-editing wizards, can we draw lessons for improving AI-based editors and determine which types of requests can currently be handled successfully by AI editors? In this paper, we present a unique study addressing these questions by analyzing 83k requests from the past 12 years (2013-2025) on the Reddit community, which collected 305k PSR-wizard edits. According to human ratings, approximately only 33% of requests can be fulfilled by the best AI editors (including GPT-4o, Gemini-2.0-Flash, SeedEdit). Interestingly, AI editors perform worse on low-creativity requests that require precise editing than on more open-ended tasks. They often struggle to preserve the identity of people and animals, and frequently make non-requested touch-ups. On the other side of the table, VLM judges (e.g., o1) perform differently from human judges and may prefer AI edits more than human edits. Code and qualitative examples are available at: https://psrdataset.github.io