MonetGPT: Het Oplossen van Puzzels Verbetert de Afbeeldingsbewerkingsvaardigheden van MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
May 9, 2025
Auteurs: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI
Samenvatting
Retoucheren is een essentiële taak in de nabewerking van ruwe foto's.
Generatieve bewerking, geleid door tekst of penseelstreken, biedt gebruikers een nieuw toegankelijk hulpmiddel, maar kan de identiteit van de originele objecten op onaanvaardbare en onvoorspelbare manieren veranderen. Daarentegen worden traditionele procedurele bewerkingen, zoals die vaak worden ondersteund door fotobewerkingsprogramma's (bijv. Gimp, Lightroom), hoewel conservatief, nog steeds geprefereerd door professionals. Helaas vereist professionele kwaliteit retoucheren veel individuele procedurele bewerkingen die voor de meeste beginners uitdagend zijn om te plannen. In dit artikel onderzoeken we of een multimodaal groot taalmodel (MLLM) kan worden geleerd om ruwe foto's te beoordelen, geschikte oplossingen voor te stellen en deze uiteindelijk te realiseren met een gegeven set van vooraf geschreven procedurele beeldbewerkingen. We demonstreren dat MLLMs eerst bewust kunnen worden gemaakt van de onderliggende beeldverwerkingsoperaties, door ze te trainen om speciaal ontworpen visuele puzzels op te lossen. Vervolgens kan zo'n operatiebewuste MLLM zowel bewerkingssequenties plannen als voorstellen. Om de training te vergemakkelijken, synthetiseren we, gegeven een set van door experts bewerkte foto's, een redeneerdataset door procedureel de expertbewerkingen te manipuleren en vervolgens een voorgetraind LLM te gronden op de visuele aanpassingen, om redeneringen te synthetiseren voor finetuning. De voorgestelde retoucheerbewerkingen zijn per constructie begrijpelijk voor de gebruikers, behouden objectdetails en resolutie, en kunnen optioneel worden overschreven. We evalueren onze opzet op een verscheidenheid aan testvoorbeelden en tonen voordelen aan, in termen van uitlegbaarheid en identiteitsbehoud, ten opzichte van bestaande generatieve en andere procedurele alternatieven. Code, data, modellen en aanvullende resultaten zijn te vinden via onze projectwebsite op https://monetgpt.github.io.
English
Retouching is an essential task in post-manipulation of raw photographs.
Generative editing, guided by text or strokes, provides a new tool accessible
to users but can easily change the identity of the original objects in
unacceptable and unpredictable ways. In contrast, although traditional
procedural edits, as commonly supported by photoediting tools (e.g., Gimp,
Lightroom), are conservative, they are still preferred by professionals.
Unfortunately, professional quality retouching involves many individual
procedural editing operations that is challenging to plan for most novices. In
this paper, we ask if a multimodal large language model (MLLM) can be taught to
critique raw photographs, suggest suitable remedies, and finally realize them
with a given set of pre-authored procedural image operations. We demonstrate
that MLLMs can be first made aware of the underlying image processing
operations, by training them to solve specially designed visual puzzles.
Subsequently, such an operation-aware MLLM can both plan and propose edit
sequences. To facilitate training, given a set of expert-edited photos, we
synthesize a reasoning dataset by procedurally manipulating the expert edits
and then grounding a pretrained LLM on the visual adjustments, to synthesize
reasoning for finetuning. The proposed retouching operations are, by
construction, understandable by the users, preserve object details and
resolution, and can be optionally overridden. We evaluate our setup on a
variety of test examples and show advantages, in terms of explainability and
identity preservation, over existing generative and other procedural
alternatives. Code, data, models, and supplementary results can be found via
our project website at https://monetgpt.github.io.Summary
AI-Generated Summary