MonetGPT : Résoudre des énigmes améliore les compétences de retouche d'image des MLLMs

Résumé

La retouche est une tâche essentielle dans le post-traitement des photographies brutes. L'édition générative, guidée par du texte ou des traits, offre un nouvel outil accessible aux utilisateurs, mais peut facilement modifier l'identité des objets originaux de manière inacceptable et imprévisible. En revanche, bien que les modifications procédurales traditionnelles, couramment supportées par les outils de retouche photo (par exemple, Gimp, Lightroom), soient conservatrices, elles restent préférées par les professionnels. Malheureusement, la retouche de qualité professionnelle implique de nombreuses opérations de modification procédurales individuelles qui sont difficiles à planifier pour la plupart des novices. Dans cet article, nous nous demandons si un modèle de langage multimodal (MLLM) peut être formé pour critiquer des photographies brutes, suggérer des remèdes appropriés, et enfin les réaliser avec un ensemble prédéfini d'opérations procédurales sur les images. Nous démontrons que les MLLMs peuvent d'abord être rendus conscients des opérations de traitement d'image sous-jacentes, en les entraînant à résoudre des puzzles visuels spécialement conçus. Par la suite, un tel MLLM conscient des opérations peut à la fois planifier et proposer des séquences de modifications. Pour faciliter l'entraînement, étant donné un ensemble de photos retouchées par des experts, nous synthétisons un ensemble de données de raisonnement en manipulant procéduralement les retouches expertes, puis en ancrant un LLM pré-entraîné sur les ajustements visuels, pour synthétiser un raisonnement destiné au fine-tuning. Les opérations de retouche proposées sont, par construction, compréhensibles par les utilisateurs, préservent les détails et la résolution des objets, et peuvent être optionnellement modifiées. Nous évaluons notre configuration sur une variété d'exemples de test et montrons des avantages, en termes d'explicabilité et de préservation de l'identité, par rapport aux alternatives génératives et procédurales existantes. Le code, les données, les modèles et les résultats supplémentaires peuvent être trouvés sur notre site web de projet à l'adresse https://monetgpt.github.io.

English

Retouching is an essential task in post-manipulation of raw photographs. Generative editing, guided by text or strokes, provides a new tool accessible to users but can easily change the identity of the original objects in unacceptable and unpredictable ways. In contrast, although traditional procedural edits, as commonly supported by photoediting tools (e.g., Gimp, Lightroom), are conservative, they are still preferred by professionals. Unfortunately, professional quality retouching involves many individual procedural editing operations that is challenging to plan for most novices. In this paper, we ask if a multimodal large language model (MLLM) can be taught to critique raw photographs, suggest suitable remedies, and finally realize them with a given set of pre-authored procedural image operations. We demonstrate that MLLMs can be first made aware of the underlying image processing operations, by training them to solve specially designed visual puzzles. Subsequently, such an operation-aware MLLM can both plan and propose edit sequences. To facilitate training, given a set of expert-edited photos, we synthesize a reasoning dataset by procedurally manipulating the expert edits and then grounding a pretrained LLM on the visual adjustments, to synthesize reasoning for finetuning. The proposed retouching operations are, by construction, understandable by the users, preserve object details and resolution, and can be optionally overridden. We evaluate our setup on a variety of test examples and show advantages, in terms of explainability and identity preservation, over existing generative and other procedural alternatives. Code, data, models, and supplementary results can be found via our project website at https://monetgpt.github.io.

MonetGPT : Résoudre des énigmes améliore les compétences de retouche d'image des MLLMs

MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

Résumé

Support