MonetGPT: 퍼즐 해결이 MLLM의 이미지 보정 기술을 향상시킨다
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
May 9, 2025
저자: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI
초록
리터칭은 원본 사진의 후처리에서 필수적인 작업입니다. 텍스트나 스트로크로 안내되는 생성적 편집은 사용자에게 접근 가능한 새로운 도구를 제공하지만, 원본 객체의 정체성을 허용할 수 없고 예측 불가능한 방식으로 쉽게 변경할 수 있습니다. 반면, 사진 편집 도구(예: Gimp, Lightroom)에서 일반적으로 지원되는 전통적인 절차적 편집은 보수적이지만 여전히 전문가들에게 선호됩니다. 불행히도 전문가 수준의 리터칭은 많은 개별 절차적 편집 작업을 포함하며, 이는 대부분의 초보자에게 계획하기 어려운 과제입니다. 본 논문에서는 멀티모달 대형 언어 모델(MLLM)이 원본 사진을 비평하고 적절한 수정을 제안하며, 사전에 작성된 절차적 이미지 작업 세트를 사용하여 이를 실현할 수 있는지 묻습니다. 우리는 MLLM이 특별히 설계된 시각적 퍼즐을 해결하도록 훈련시켜 기본 이미지 처리 작업을 인식할 수 있음을 보여줍니다. 이후, 이러한 작업을 인식한 MLLM은 편집 시퀀스를 계획하고 제안할 수 있습니다. 훈련을 용이하게 하기 위해, 전문가가 편집한 사진 세트가 주어지면, 전문가 편집을 절차적으로 조작하고 사전 훈련된 LLM을 시각적 조정에 기반하여 미세 조정을 위한 추론 데이터셋을 합성합니다. 제안된 리터칭 작업은 사용자가 이해할 수 있도록 구성되었으며, 객체 세부 사항과 해상도를 보존하고 선택적으로 재정의할 수 있습니다. 우리는 다양한 테스트 예제에서 설정을 평가하고, 설명 가능성과 정체성 보존 측면에서 기존의 생성적 및 다른 절차적 대안에 비해 장점을 보여줍니다. 코드, 데이터, 모델 및 추가 결과는 프로젝트 웹사이트(https://monetgpt.github.io)에서 확인할 수 있습니다.
English
Retouching is an essential task in post-manipulation of raw photographs.
Generative editing, guided by text or strokes, provides a new tool accessible
to users but can easily change the identity of the original objects in
unacceptable and unpredictable ways. In contrast, although traditional
procedural edits, as commonly supported by photoediting tools (e.g., Gimp,
Lightroom), are conservative, they are still preferred by professionals.
Unfortunately, professional quality retouching involves many individual
procedural editing operations that is challenging to plan for most novices. In
this paper, we ask if a multimodal large language model (MLLM) can be taught to
critique raw photographs, suggest suitable remedies, and finally realize them
with a given set of pre-authored procedural image operations. We demonstrate
that MLLMs can be first made aware of the underlying image processing
operations, by training them to solve specially designed visual puzzles.
Subsequently, such an operation-aware MLLM can both plan and propose edit
sequences. To facilitate training, given a set of expert-edited photos, we
synthesize a reasoning dataset by procedurally manipulating the expert edits
and then grounding a pretrained LLM on the visual adjustments, to synthesize
reasoning for finetuning. The proposed retouching operations are, by
construction, understandable by the users, preserve object details and
resolution, and can be optionally overridden. We evaluate our setup on a
variety of test examples and show advantages, in terms of explainability and
identity preservation, over existing generative and other procedural
alternatives. Code, data, models, and supplementary results can be found via
our project website at https://monetgpt.github.io.Summary
AI-Generated Summary