MonetGPT: Risolvere enigmi potenzia le capacità di ritocco delle immagini nei MLLM

Abstract

Il ritocco è un compito essenziale nella post-elaborazione delle fotografie raw. L'editing generativo, guidato da testo o tratti, fornisce un nuovo strumento accessibile agli utenti ma può facilmente alterare l'identità degli oggetti originali in modi inaccettabili e imprevedibili. Al contrario, sebbene le modifiche procedurali tradizionali, comunemente supportate da strumenti di fotoritocco (ad esempio, Gimp, Lightroom), siano conservative, sono ancora preferite dai professionisti. Sfortunatamente, il ritocco di qualità professionale coinvolge molte operazioni individuali di editing procedurale che sono difficili da pianificare per la maggior parte dei principianti. In questo articolo, ci chiediamo se un modello linguistico multimodale di grandi dimensioni (MLLM) possa essere addestrato a criticare fotografie raw, suggerire rimedi adeguati e infine realizzarli con un determinato set di operazioni procedurali pre-autorizzate. Dimostriamo che gli MLLM possono prima essere resi consapevoli delle operazioni di elaborazione delle immagini sottostanti, addestrandoli a risolvere puzzle visivi appositamente progettati. Successivamente, un MLLM consapevole delle operazioni può sia pianificare che proporre sequenze di editing. Per facilitare l'addestramento, dato un set di foto modificate da esperti, sintetizziamo un dataset di ragionamento manipolando proceduralmente le modifiche degli esperti e quindi ancorando un LLM preaddestrato sugli aggiustamenti visivi, per sintetizzare il ragionamento per il fine-tuning. Le operazioni di ritocco proposte sono, per costruzione, comprensibili dagli utenti, preservano i dettagli e la risoluzione degli oggetti, e possono essere eventualmente sovrascritte. Valutiamo il nostro setup su una varietà di esempi di test e mostriamo vantaggi, in termini di spiegabilità e preservazione dell'identità, rispetto alle alternative generative e procedurali esistenti. Codice, dati, modelli e risultati supplementari possono essere trovati sul nostro sito del progetto all'indirizzo https://monetgpt.github.io.

English

Retouching is an essential task in post-manipulation of raw photographs. Generative editing, guided by text or strokes, provides a new tool accessible to users but can easily change the identity of the original objects in unacceptable and unpredictable ways. In contrast, although traditional procedural edits, as commonly supported by photoediting tools (e.g., Gimp, Lightroom), are conservative, they are still preferred by professionals. Unfortunately, professional quality retouching involves many individual procedural editing operations that is challenging to plan for most novices. In this paper, we ask if a multimodal large language model (MLLM) can be taught to critique raw photographs, suggest suitable remedies, and finally realize them with a given set of pre-authored procedural image operations. We demonstrate that MLLMs can be first made aware of the underlying image processing operations, by training them to solve specially designed visual puzzles. Subsequently, such an operation-aware MLLM can both plan and propose edit sequences. To facilitate training, given a set of expert-edited photos, we synthesize a reasoning dataset by procedurally manipulating the expert edits and then grounding a pretrained LLM on the visual adjustments, to synthesize reasoning for finetuning. The proposed retouching operations are, by construction, understandable by the users, preserve object details and resolution, and can be optionally overridden. We evaluate our setup on a variety of test examples and show advantages, in terms of explainability and identity preservation, over existing generative and other procedural alternatives. Code, data, models, and supplementary results can be found via our project website at https://monetgpt.github.io.

MonetGPT: Risolvere enigmi potenzia le capacità di ritocco delle immagini nei MLLM

MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

Abstract

Support