일상적인 이미지 편집 작업에서 생성형 AI의 능력 이해하기
Understanding Generative AI Capabilities in Everyday Image Editing Tasks
May 22, 2025
저자: Mohammad Reza Taesiri, Brandon Collins, Logan Bolton, Viet Dac Lai, Franck Dernoncourt, Trung Bui, Anh Totti Nguyen
cs.AI
초록
생성형 AI(GenAI)는 일상적인 이미지 편집 작업을 자동화하는 데 있어 상당한 가능성을 가지고 있으며, 특히 2025년 3월 25일 GPT-4o의 최근 출시 이후 더욱 주목받고 있습니다. 그러나 사람들이 가장 자주 편집하고 싶어하는 주제는 무엇일까요? 그들은 어떤 종류의 편집 작업(예: 주체 제거 또는 스타일화)을 원할까요? 사람들은 예측 가능한 결과를 보장하는 정밀한 편집을 선호할까요, 아니면 매우 창의적인 편집을 원할까요? 프리랜서 사진 편집 전문가들이 수행한 실제 요청과 해당 편집의 특성을 이해함으로써, AI 기반 편집기를 개선하고 현재 AI 편집기가 성공적으로 처리할 수 있는 요청 유형을 결정하는 데 도움이 되는 교훈을 얻을 수 있을까요? 본 논문에서는 이러한 질문에 답하기 위해 Reddit 커뮤니티에서 지난 12년간(2013-2025) 수집된 83,000개의 요청과 305,000개의 PSR 전문가 편집을 분석한 독창적인 연구를 제시합니다. 인간 평가에 따르면, 최고의 AI 편집기(GPT-4o, Gemini-2.0-Flash, SeedEdit 포함)가 처리할 수 있는 요청은 약 33%에 불과합니다. 흥미롭게도, AI 편집기는 창의성이 낮고 정밀한 편집이 필요한 요청에서 더 개방적인 작업보다 성능이 떨어지는 것으로 나타났습니다. AI는 사람과 동물의 정체성을 유지하는 데 어려움을 겪으며, 종종 요청되지 않은 보정을 하는 경우가 많습니다. 반면, VLM 판단자(예: o1)는 인간 판단자와 다르게 행동하며, 인간 편집보다 AI 편집을 더 선호할 수 있습니다. 코드와 질적 예시는 https://psrdataset.github.io에서 확인할 수 있습니다.
English
Generative AI (GenAI) holds significant promise for automating everyday image
editing tasks, especially following the recent release of GPT-4o on March 25,
2025. However, what subjects do people most often want edited? What kinds of
editing actions do they want to perform (e.g., removing or stylizing the
subject)? Do people prefer precise edits with predictable outcomes or highly
creative ones? By understanding the characteristics of real-world requests and
the corresponding edits made by freelance photo-editing wizards, can we draw
lessons for improving AI-based editors and determine which types of requests
can currently be handled successfully by AI editors? In this paper, we present
a unique study addressing these questions by analyzing 83k requests from the
past 12 years (2013-2025) on the Reddit community, which collected 305k
PSR-wizard edits. According to human ratings, approximately only 33% of
requests can be fulfilled by the best AI editors (including GPT-4o,
Gemini-2.0-Flash, SeedEdit). Interestingly, AI editors perform worse on
low-creativity requests that require precise editing than on more open-ended
tasks. They often struggle to preserve the identity of people and animals, and
frequently make non-requested touch-ups. On the other side of the table, VLM
judges (e.g., o1) perform differently from human judges and may prefer AI edits
more than human edits. Code and qualitative examples are available at:
https://psrdataset.github.ioSummary
AI-Generated Summary