ChatPaper.aiChatPaper

MonetGPT: Resolver quebra-cabeças aprimora as habilidades de retoque de imagens dos MLLMs

MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025
Autores: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI

Resumo

A retocagem é uma tarefa essencial na pós-manipulação de fotografias brutas. A edição generativa, guiada por texto ou traços, oferece uma nova ferramenta acessível aos usuários, mas pode facilmente alterar a identidade dos objetos originais de maneiras inaceitáveis e imprevisíveis. Em contraste, embora as edições procedurais tradicionais, comumente suportadas por ferramentas de edição de fotos (por exemplo, Gimp, Lightroom), sejam conservadoras, elas ainda são preferidas pelos profissionais. Infelizmente, a retocagem de qualidade profissional envolve muitas operações individuais de edição procedural que são desafiadoras de planejar para a maioria dos iniciantes. Neste artigo, questionamos se um modelo de linguagem multimodal de grande escala (MLLM) pode ser ensinado a criticar fotografias brutas, sugerir remédios adequados e, finalmente, realizá-los com um conjunto pré-definido de operações procedurais de imagem. Demonstramos que os MLLMs podem primeiro ser conscientizados das operações subjacentes de processamento de imagem, treinando-os para resolver quebra-cabeças visuais especialmente projetados. Posteriormente, um MLLM consciente das operações pode planejar e propor sequências de edição. Para facilitar o treinamento, dado um conjunto de fotos editadas por especialistas, sintetizamos um conjunto de dados de raciocínio manipulando proceduralmente as edições dos especialistas e, em seguida, fundamentando um LLM pré-treinado nos ajustes visuais, para sintetizar o raciocínio para ajuste fino. As operações de retocagem propostas são, por construção, compreensíveis pelos usuários, preservam detalhes e resolução dos objetos, e podem ser opcionalmente substituídas. Avaliamos nossa configuração em uma variedade de exemplos de teste e mostramos vantagens, em termos de explicabilidade e preservação de identidade, sobre as alternativas generativas e procedurais existentes. Código, dados, modelos e resultados suplementares podem ser encontrados em nosso site do projeto em https://monetgpt.github.io.
English
Retouching is an essential task in post-manipulation of raw photographs. Generative editing, guided by text or strokes, provides a new tool accessible to users but can easily change the identity of the original objects in unacceptable and unpredictable ways. In contrast, although traditional procedural edits, as commonly supported by photoediting tools (e.g., Gimp, Lightroom), are conservative, they are still preferred by professionals. Unfortunately, professional quality retouching involves many individual procedural editing operations that is challenging to plan for most novices. In this paper, we ask if a multimodal large language model (MLLM) can be taught to critique raw photographs, suggest suitable remedies, and finally realize them with a given set of pre-authored procedural image operations. We demonstrate that MLLMs can be first made aware of the underlying image processing operations, by training them to solve specially designed visual puzzles. Subsequently, such an operation-aware MLLM can both plan and propose edit sequences. To facilitate training, given a set of expert-edited photos, we synthesize a reasoning dataset by procedurally manipulating the expert edits and then grounding a pretrained LLM on the visual adjustments, to synthesize reasoning for finetuning. The proposed retouching operations are, by construction, understandable by the users, preserve object details and resolution, and can be optionally overridden. We evaluate our setup on a variety of test examples and show advantages, in terms of explainability and identity preservation, over existing generative and other procedural alternatives. Code, data, models, and supplementary results can be found via our project website at https://monetgpt.github.io.
PDF122March 21, 2026