MonetGPT: Resolver acertijos mejora las habilidades de retoque de imágenes en MLLMs

Resumen

El retoque es una tarea esencial en la post-manipulación de fotografías en bruto. La edición generativa, guiada por texto o trazos, ofrece una nueva herramienta accesible para los usuarios, pero puede alterar fácilmente la identidad de los objetos originales de maneras inaceptables e impredecibles. En contraste, aunque las ediciones procedimentales tradicionales, comúnmente soportadas por herramientas de edición de fotos (por ejemplo, Gimp, Lightroom), son conservadoras, siguen siendo preferidas por los profesionales. Desafortunadamente, el retoque de calidad profesional implica muchas operaciones individuales de edición procedimental que son difíciles de planificar para la mayoría de los principiantes. En este artículo, nos preguntamos si un modelo de lenguaje multimodal de gran escala (MLLM) puede ser entrenado para criticar fotografías en bruto, sugerir remedios adecuados y finalmente implementarlos con un conjunto dado de operaciones de imagen procedimentales predefinidas. Demostramos que los MLLMs pueden primero ser conscientes de las operaciones subyacentes de procesamiento de imágenes, entrenándolos para resolver acertijos visuales especialmente diseñados. Posteriormente, un MLLM consciente de las operaciones puede tanto planificar como proponer secuencias de edición. Para facilitar el entrenamiento, dado un conjunto de fotos editadas por expertos, sintetizamos un conjunto de datos de razonamiento manipulando procedimentalmente las ediciones expertas y luego fundamentando un LLM preentrenado en los ajustes visuales, para sintetizar razonamientos para el ajuste fino. Las operaciones de retoque propuestas son, por construcción, comprensibles para los usuarios, preservan los detalles y la resolución de los objetos, y pueden ser opcionalmente anuladas. Evaluamos nuestra configuración en una variedad de ejemplos de prueba y mostramos ventajas, en términos de explicabilidad y preservación de la identidad, sobre las alternativas generativas y otras alternativas procedimentales existentes. El código, los datos, los modelos y los resultados complementarios se pueden encontrar en nuestro sitio web del proyecto en https://monetgpt.github.io.

English

Retouching is an essential task in post-manipulation of raw photographs. Generative editing, guided by text or strokes, provides a new tool accessible to users but can easily change the identity of the original objects in unacceptable and unpredictable ways. In contrast, although traditional procedural edits, as commonly supported by photoediting tools (e.g., Gimp, Lightroom), are conservative, they are still preferred by professionals. Unfortunately, professional quality retouching involves many individual procedural editing operations that is challenging to plan for most novices. In this paper, we ask if a multimodal large language model (MLLM) can be taught to critique raw photographs, suggest suitable remedies, and finally realize them with a given set of pre-authored procedural image operations. We demonstrate that MLLMs can be first made aware of the underlying image processing operations, by training them to solve specially designed visual puzzles. Subsequently, such an operation-aware MLLM can both plan and propose edit sequences. To facilitate training, given a set of expert-edited photos, we synthesize a reasoning dataset by procedurally manipulating the expert edits and then grounding a pretrained LLM on the visual adjustments, to synthesize reasoning for finetuning. The proposed retouching operations are, by construction, understandable by the users, preserve object details and resolution, and can be optionally overridden. We evaluate our setup on a variety of test examples and show advantages, in terms of explainability and identity preservation, over existing generative and other procedural alternatives. Code, data, models, and supplementary results can be found via our project website at https://monetgpt.github.io.

MonetGPT: Resolver acertijos mejora las habilidades de retoque de imágenes en MLLMs

MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

Resumen

Support