MonetGPT: パズル解決がMLLMの画像補正スキルを向上させる
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills
May 9, 2025
著者: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI
要旨
レタッチは、生写真の後処理における重要な作業です。テキストやストロークに基づく生成的編集は、ユーザーにとってアクセスしやすい新しいツールを提供しますが、元のオブジェクトのアイデンティティを許容できない予測不可能な方法で容易に変更してしまう可能性があります。一方で、フォト編集ツール(例:Gimp、Lightroom)で一般的にサポートされている従来の手続き的編集は保守的ですが、プロフェッショナルによって依然として好まれています。残念ながら、プロフェッショナル品質のレタッチには、多くの個別の手続き的編集操作が含まれており、ほとんどの初心者にとって計画することが困難です。本論文では、マルチモーダル大規模言語モデル(MLLM)が生写真を批評し、適切な修正を提案し、最終的に事前に作成された一連の手続き的画像操作を実現するように教えることができるかどうかを問います。MLLMがまず、特別に設計された視覚パズルを解くように訓練することで、基礎となる画像処理操作を認識できることを示します。その後、そのような操作を認識したMLLMは、編集シーケンスを計画し提案することができます。訓練を容易にするために、専門家によって編集された写真のセットが与えられた場合、専門家の編集を手続き的に操作し、事前訓練されたLLMを視覚的調整に基づいて根拠付けし、微調整のための推論を合成します。提案されたレタッチ操作は、構成的にユーザーが理解可能であり、オブジェクトの詳細と解像度を保持し、オプションで上書きすることができます。我々は、さまざまなテスト例でセットアップを評価し、説明可能性とアイデンティティの保持の点で、既存の生成的および他の手続き的代替手段に対する利点を示します。コード、データ、モデル、および補足結果は、プロジェクトウェブサイトhttps://monetgpt.github.ioで見つけることができます。
English
Retouching is an essential task in post-manipulation of raw photographs.
Generative editing, guided by text or strokes, provides a new tool accessible
to users but can easily change the identity of the original objects in
unacceptable and unpredictable ways. In contrast, although traditional
procedural edits, as commonly supported by photoediting tools (e.g., Gimp,
Lightroom), are conservative, they are still preferred by professionals.
Unfortunately, professional quality retouching involves many individual
procedural editing operations that is challenging to plan for most novices. In
this paper, we ask if a multimodal large language model (MLLM) can be taught to
critique raw photographs, suggest suitable remedies, and finally realize them
with a given set of pre-authored procedural image operations. We demonstrate
that MLLMs can be first made aware of the underlying image processing
operations, by training them to solve specially designed visual puzzles.
Subsequently, such an operation-aware MLLM can both plan and propose edit
sequences. To facilitate training, given a set of expert-edited photos, we
synthesize a reasoning dataset by procedurally manipulating the expert edits
and then grounding a pretrained LLM on the visual adjustments, to synthesize
reasoning for finetuning. The proposed retouching operations are, by
construction, understandable by the users, preserve object details and
resolution, and can be optionally overridden. We evaluate our setup on a
variety of test examples and show advantages, in terms of explainability and
identity preservation, over existing generative and other procedural
alternatives. Code, data, models, and supplementary results can be found via
our project website at https://monetgpt.github.io.Summary
AI-Generated Summary