MonetGPT: Risolvere enigmi potenzia le capacità di ritocco delle immagini nei MLLM
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
May 9, 2025
Autori: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI
Abstract
Il ritocco è un compito essenziale nella post-elaborazione delle fotografie raw.
L'editing generativo, guidato da testo o tratti, fornisce un nuovo strumento accessibile
agli utenti ma può facilmente alterare l'identità degli oggetti originali in modi
inaccettabili e imprevedibili. Al contrario, sebbene le modifiche procedurali tradizionali,
comunemente supportate da strumenti di fotoritocco (ad esempio, Gimp, Lightroom),
siano conservative, sono ancora preferite dai professionisti. Sfortunatamente, il ritocco
di qualità professionale coinvolge molte operazioni individuali di editing procedurale
che sono difficili da pianificare per la maggior parte dei principianti. In
questo articolo, ci chiediamo se un modello linguistico multimodale di grandi dimensioni (MLLM)
possa essere addestrato a criticare fotografie raw, suggerire rimedi adeguati e infine
realizzarli con un determinato set di operazioni procedurali pre-autorizzate. Dimostriamo
che gli MLLM possono prima essere resi consapevoli delle operazioni di elaborazione delle immagini
sottostanti, addestrandoli a risolvere puzzle visivi appositamente progettati.
Successivamente, un MLLM consapevole delle operazioni può sia pianificare che proporre sequenze
di editing. Per facilitare l'addestramento, dato un set di foto modificate da esperti,
sintetizziamo un dataset di ragionamento manipolando proceduralmente le modifiche degli esperti
e quindi ancorando un LLM preaddestrato sugli aggiustamenti visivi, per sintetizzare
il ragionamento per il fine-tuning. Le operazioni di ritocco proposte sono, per
costruzione, comprensibili dagli utenti, preservano i dettagli e la risoluzione degli oggetti,
e possono essere eventualmente sovrascritte. Valutiamo il nostro setup su una
varietà di esempi di test e mostriamo vantaggi, in termini di spiegabilità e
preservazione dell'identità, rispetto alle alternative generative e procedurali esistenti.
Codice, dati, modelli e risultati supplementari possono essere trovati sul nostro sito del progetto
all'indirizzo https://monetgpt.github.io.
English
Retouching is an essential task in post-manipulation of raw photographs.
Generative editing, guided by text or strokes, provides a new tool accessible
to users but can easily change the identity of the original objects in
unacceptable and unpredictable ways. In contrast, although traditional
procedural edits, as commonly supported by photoediting tools (e.g., Gimp,
Lightroom), are conservative, they are still preferred by professionals.
Unfortunately, professional quality retouching involves many individual
procedural editing operations that is challenging to plan for most novices. In
this paper, we ask if a multimodal large language model (MLLM) can be taught to
critique raw photographs, suggest suitable remedies, and finally realize them
with a given set of pre-authored procedural image operations. We demonstrate
that MLLMs can be first made aware of the underlying image processing
operations, by training them to solve specially designed visual puzzles.
Subsequently, such an operation-aware MLLM can both plan and propose edit
sequences. To facilitate training, given a set of expert-edited photos, we
synthesize a reasoning dataset by procedurally manipulating the expert edits
and then grounding a pretrained LLM on the visual adjustments, to synthesize
reasoning for finetuning. The proposed retouching operations are, by
construction, understandable by the users, preserve object details and
resolution, and can be optionally overridden. We evaluate our setup on a
variety of test examples and show advantages, in terms of explainability and
identity preservation, over existing generative and other procedural
alternatives. Code, data, models, and supplementary results can be found via
our project website at https://monetgpt.github.io.