MonetGPT: Das Lösen von Rätseln verbessert die Bildbearbeitungsfähigkeiten von MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
May 9, 2025
Autoren: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI
Zusammenfassung
Retusche ist eine wesentliche Aufgabe bei der Nachbearbeitung von Rohfotos. Generatives Editieren, das durch Text oder Striche gesteuert wird, bietet ein neues Werkzeug, das Benutzern zugänglich ist, kann jedoch die Identität der ursprünglichen Objekte auf unakzeptable und unvorhersehbare Weise verändern. Im Gegensatz dazu sind traditionelle prozedurale Bearbeitungen, wie sie häufig von Fotobearbeitungstools (z.B. Gimp, Lightroom) unterstützt werden, zwar konservativ, werden aber dennoch von Profis bevorzugt. Leider umfasst eine professionelle Retusche viele einzelne prozedurale Bearbeitungsschritte, die für die meisten Anfänger schwer zu planen sind. In diesem Artikel fragen wir, ob ein multimodales großes Sprachmodell (MLLM) dazu gebracht werden kann, Rohfotos zu bewerten, geeignete Korrekturen vorzuschlagen und diese schließlich mit einer gegebenen Menge vordefinierter prozeduraler Bildoperationen umzusetzen. Wir zeigen, dass MLLMs zunächst über die zugrunde liegenden Bildverarbeitungsoperationen informiert werden können, indem sie darauf trainiert werden, speziell gestaltete visuelle Rätsel zu lösen. Anschließend kann ein solches operationsbewusstes MLLM sowohl Bearbeitungssequenzen planen als auch vorschlagen. Um das Training zu erleichtern, synthetisieren wir aus einer Menge von von Experten bearbeiteten Fotos einen Reasoning-Datensatz, indem wir die Expertenbearbeitungen prozedural manipulieren und dann ein vortrainiertes LLM auf die visuellen Anpassungen abstimmen, um Reasoning für das Feintuning zu synthetisieren. Die vorgeschlagenen Retuscheoperationen sind konstruktionsbedingt für die Benutzer verständlich, bewahren Objektdetails und Auflösung und können optional überschrieben werden. Wir bewerten unser Setup anhand einer Vielzahl von Testbeispielen und zeigen Vorteile in Bezug auf Erklärbarkeit und Identitätserhaltung gegenüber bestehenden generativen und anderen prozeduralen Alternativen. Code, Daten, Modelle und ergänzende Ergebnisse finden Sie auf unserer Projektwebsite unter https://monetgpt.github.io.
English
Retouching is an essential task in post-manipulation of raw photographs.
Generative editing, guided by text or strokes, provides a new tool accessible
to users but can easily change the identity of the original objects in
unacceptable and unpredictable ways. In contrast, although traditional
procedural edits, as commonly supported by photoediting tools (e.g., Gimp,
Lightroom), are conservative, they are still preferred by professionals.
Unfortunately, professional quality retouching involves many individual
procedural editing operations that is challenging to plan for most novices. In
this paper, we ask if a multimodal large language model (MLLM) can be taught to
critique raw photographs, suggest suitable remedies, and finally realize them
with a given set of pre-authored procedural image operations. We demonstrate
that MLLMs can be first made aware of the underlying image processing
operations, by training them to solve specially designed visual puzzles.
Subsequently, such an operation-aware MLLM can both plan and propose edit
sequences. To facilitate training, given a set of expert-edited photos, we
synthesize a reasoning dataset by procedurally manipulating the expert edits
and then grounding a pretrained LLM on the visual adjustments, to synthesize
reasoning for finetuning. The proposed retouching operations are, by
construction, understandable by the users, preserve object details and
resolution, and can be optionally overridden. We evaluate our setup on a
variety of test examples and show advantages, in terms of explainability and
identity preservation, over existing generative and other procedural
alternatives. Code, data, models, and supplementary results can be found via
our project website at https://monetgpt.github.io.Summary
AI-Generated Summary