MonetGPT: Resolver quebra-cabeças aprimora as habilidades de retoque de imagens dos MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
May 9, 2025
Autores: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI
Resumo
A retocagem é uma tarefa essencial na pós-manipulação de fotografias brutas. A edição generativa, guiada por texto ou traços, oferece uma nova ferramenta acessível aos usuários, mas pode facilmente alterar a identidade dos objetos originais de maneiras inaceitáveis e imprevisíveis. Em contraste, embora as edições procedurais tradicionais, comumente suportadas por ferramentas de edição de fotos (por exemplo, Gimp, Lightroom), sejam conservadoras, elas ainda são preferidas pelos profissionais. Infelizmente, a retocagem de qualidade profissional envolve muitas operações individuais de edição procedural que são desafiadoras de planejar para a maioria dos iniciantes. Neste artigo, questionamos se um modelo de linguagem multimodal de grande escala (MLLM) pode ser ensinado a criticar fotografias brutas, sugerir remédios adequados e, finalmente, realizá-los com um conjunto pré-definido de operações procedurais de imagem. Demonstramos que os MLLMs podem primeiro ser conscientizados das operações subjacentes de processamento de imagem, treinando-os para resolver quebra-cabeças visuais especialmente projetados. Posteriormente, um MLLM consciente das operações pode planejar e propor sequências de edição. Para facilitar o treinamento, dado um conjunto de fotos editadas por especialistas, sintetizamos um conjunto de dados de raciocínio manipulando proceduralmente as edições dos especialistas e, em seguida, fundamentando um LLM pré-treinado nos ajustes visuais, para sintetizar o raciocínio para ajuste fino. As operações de retocagem propostas são, por construção, compreensíveis pelos usuários, preservam detalhes e resolução dos objetos, e podem ser opcionalmente substituídas. Avaliamos nossa configuração em uma variedade de exemplos de teste e mostramos vantagens, em termos de explicabilidade e preservação de identidade, sobre as alternativas generativas e procedurais existentes. Código, dados, modelos e resultados suplementares podem ser encontrados em nosso site do projeto em https://monetgpt.github.io.
English
Retouching is an essential task in post-manipulation of raw photographs.
Generative editing, guided by text or strokes, provides a new tool accessible
to users but can easily change the identity of the original objects in
unacceptable and unpredictable ways. In contrast, although traditional
procedural edits, as commonly supported by photoediting tools (e.g., Gimp,
Lightroom), are conservative, they are still preferred by professionals.
Unfortunately, professional quality retouching involves many individual
procedural editing operations that is challenging to plan for most novices. In
this paper, we ask if a multimodal large language model (MLLM) can be taught to
critique raw photographs, suggest suitable remedies, and finally realize them
with a given set of pre-authored procedural image operations. We demonstrate
that MLLMs can be first made aware of the underlying image processing
operations, by training them to solve specially designed visual puzzles.
Subsequently, such an operation-aware MLLM can both plan and propose edit
sequences. To facilitate training, given a set of expert-edited photos, we
synthesize a reasoning dataset by procedurally manipulating the expert edits
and then grounding a pretrained LLM on the visual adjustments, to synthesize
reasoning for finetuning. The proposed retouching operations are, by
construction, understandable by the users, preserve object details and
resolution, and can be optionally overridden. We evaluate our setup on a
variety of test examples and show advantages, in terms of explainability and
identity preservation, over existing generative and other procedural
alternatives. Code, data, models, and supplementary results can be found via
our project website at https://monetgpt.github.io.