MonetGPT: Resolver acertijos mejora las habilidades de retoque de imágenes en MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
May 9, 2025
Autores: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI
Resumen
El retoque es una tarea esencial en la post-manipulación de fotografías en bruto. La edición generativa, guiada por texto o trazos, ofrece una nueva herramienta accesible para los usuarios, pero puede alterar fácilmente la identidad de los objetos originales de maneras inaceptables e impredecibles. En contraste, aunque las ediciones procedimentales tradicionales, comúnmente soportadas por herramientas de edición de fotos (por ejemplo, Gimp, Lightroom), son conservadoras, siguen siendo preferidas por los profesionales. Desafortunadamente, el retoque de calidad profesional implica muchas operaciones individuales de edición procedimental que son difíciles de planificar para la mayoría de los principiantes. En este artículo, nos preguntamos si un modelo de lenguaje multimodal de gran escala (MLLM) puede ser entrenado para criticar fotografías en bruto, sugerir remedios adecuados y finalmente implementarlos con un conjunto dado de operaciones de imagen procedimentales predefinidas. Demostramos que los MLLMs pueden primero ser conscientes de las operaciones subyacentes de procesamiento de imágenes, entrenándolos para resolver acertijos visuales especialmente diseñados. Posteriormente, un MLLM consciente de las operaciones puede tanto planificar como proponer secuencias de edición. Para facilitar el entrenamiento, dado un conjunto de fotos editadas por expertos, sintetizamos un conjunto de datos de razonamiento manipulando procedimentalmente las ediciones expertas y luego fundamentando un LLM preentrenado en los ajustes visuales, para sintetizar razonamientos para el ajuste fino. Las operaciones de retoque propuestas son, por construcción, comprensibles para los usuarios, preservan los detalles y la resolución de los objetos, y pueden ser opcionalmente anuladas. Evaluamos nuestra configuración en una variedad de ejemplos de prueba y mostramos ventajas, en términos de explicabilidad y preservación de la identidad, sobre las alternativas generativas y otras alternativas procedimentales existentes. El código, los datos, los modelos y los resultados complementarios se pueden encontrar en nuestro sitio web del proyecto en https://monetgpt.github.io.
English
Retouching is an essential task in post-manipulation of raw photographs.
Generative editing, guided by text or strokes, provides a new tool accessible
to users but can easily change the identity of the original objects in
unacceptable and unpredictable ways. In contrast, although traditional
procedural edits, as commonly supported by photoediting tools (e.g., Gimp,
Lightroom), are conservative, they are still preferred by professionals.
Unfortunately, professional quality retouching involves many individual
procedural editing operations that is challenging to plan for most novices. In
this paper, we ask if a multimodal large language model (MLLM) can be taught to
critique raw photographs, suggest suitable remedies, and finally realize them
with a given set of pre-authored procedural image operations. We demonstrate
that MLLMs can be first made aware of the underlying image processing
operations, by training them to solve specially designed visual puzzles.
Subsequently, such an operation-aware MLLM can both plan and propose edit
sequences. To facilitate training, given a set of expert-edited photos, we
synthesize a reasoning dataset by procedurally manipulating the expert edits
and then grounding a pretrained LLM on the visual adjustments, to synthesize
reasoning for finetuning. The proposed retouching operations are, by
construction, understandable by the users, preserve object details and
resolution, and can be optionally overridden. We evaluate our setup on a
variety of test examples and show advantages, in terms of explainability and
identity preservation, over existing generative and other procedural
alternatives. Code, data, models, and supplementary results can be found via
our project website at https://monetgpt.github.io.