ChatPaper.aiChatPaper

MonetGPT: Das Lösen von Rätseln verbessert die Bildbearbeitungsfähigkeiten von MLLMs

MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025
Autoren: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI

Zusammenfassung

Retusche ist eine wesentliche Aufgabe bei der Nachbearbeitung von Rohfotos. Generatives Editieren, das durch Text oder Striche gesteuert wird, bietet ein neues Werkzeug, das Benutzern zugänglich ist, kann jedoch die Identität der ursprünglichen Objekte auf unakzeptable und unvorhersehbare Weise verändern. Im Gegensatz dazu sind traditionelle prozedurale Bearbeitungen, wie sie häufig von Fotobearbeitungstools (z.B. Gimp, Lightroom) unterstützt werden, zwar konservativ, werden aber dennoch von Profis bevorzugt. Leider umfasst eine professionelle Retusche viele einzelne prozedurale Bearbeitungsschritte, die für die meisten Anfänger schwer zu planen sind. In diesem Artikel fragen wir, ob ein multimodales großes Sprachmodell (MLLM) dazu gebracht werden kann, Rohfotos zu bewerten, geeignete Korrekturen vorzuschlagen und diese schließlich mit einer gegebenen Menge vordefinierter prozeduraler Bildoperationen umzusetzen. Wir zeigen, dass MLLMs zunächst über die zugrunde liegenden Bildverarbeitungsoperationen informiert werden können, indem sie darauf trainiert werden, speziell gestaltete visuelle Rätsel zu lösen. Anschließend kann ein solches operationsbewusstes MLLM sowohl Bearbeitungssequenzen planen als auch vorschlagen. Um das Training zu erleichtern, synthetisieren wir aus einer Menge von von Experten bearbeiteten Fotos einen Reasoning-Datensatz, indem wir die Expertenbearbeitungen prozedural manipulieren und dann ein vortrainiertes LLM auf die visuellen Anpassungen abstimmen, um Reasoning für das Feintuning zu synthetisieren. Die vorgeschlagenen Retuscheoperationen sind konstruktionsbedingt für die Benutzer verständlich, bewahren Objektdetails und Auflösung und können optional überschrieben werden. Wir bewerten unser Setup anhand einer Vielzahl von Testbeispielen und zeigen Vorteile in Bezug auf Erklärbarkeit und Identitätserhaltung gegenüber bestehenden generativen und anderen prozeduralen Alternativen. Code, Daten, Modelle und ergänzende Ergebnisse finden Sie auf unserer Projektwebsite unter https://monetgpt.github.io.
English
Retouching is an essential task in post-manipulation of raw photographs. Generative editing, guided by text or strokes, provides a new tool accessible to users but can easily change the identity of the original objects in unacceptable and unpredictable ways. In contrast, although traditional procedural edits, as commonly supported by photoediting tools (e.g., Gimp, Lightroom), are conservative, they are still preferred by professionals. Unfortunately, professional quality retouching involves many individual procedural editing operations that is challenging to plan for most novices. In this paper, we ask if a multimodal large language model (MLLM) can be taught to critique raw photographs, suggest suitable remedies, and finally realize them with a given set of pre-authored procedural image operations. We demonstrate that MLLMs can be first made aware of the underlying image processing operations, by training them to solve specially designed visual puzzles. Subsequently, such an operation-aware MLLM can both plan and propose edit sequences. To facilitate training, given a set of expert-edited photos, we synthesize a reasoning dataset by procedurally manipulating the expert edits and then grounding a pretrained LLM on the visual adjustments, to synthesize reasoning for finetuning. The proposed retouching operations are, by construction, understandable by the users, preserve object details and resolution, and can be optionally overridden. We evaluate our setup on a variety of test examples and show advantages, in terms of explainability and identity preservation, over existing generative and other procedural alternatives. Code, data, models, and supplementary results can be found via our project website at https://monetgpt.github.io.

Summary

AI-Generated Summary

PDF71May 13, 2025