ChatPaper.aiChatPaper

MonetGPT: Решение головоломок улучшает навыки ретуширования изображений в мультимодальных языковых моделях

MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025
Авторы: Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra
cs.AI

Аннотация

Ретушь является важной задачей в постобработке необработанных фотографий. Генеративное редактирование, управляемое текстом или штрихами, предоставляет новый инструмент, доступный пользователям, но может легко изменить идентичность исходных объектов неприемлемым и непредсказуемым образом. В отличие от этого, традиционные процедурные правки, которые обычно поддерживаются фоторедакторами (например, Gimp, Lightroom), хотя и консервативны, всё же предпочитаются профессионалами. К сожалению, профессиональная ретушь включает множество отдельных процедурных операций, которые сложно планировать для большинства новичков. В данной статье мы задаёмся вопросом, можно ли обучить мультимодальную большую языковую модель (MLLM) анализировать необработанные фотографии, предлагать подходящие исправления и реализовывать их с помощью заданного набора предварительно созданных процедурных операций с изображениями. Мы демонстрируем, что MLLM можно сначала ознакомить с базовыми операциями обработки изображений, обучая их решать специально разработанные визуальные головоломки. Впоследствии такая модель, осведомлённая об операциях, может как планировать, так и предлагать последовательности правок. Для облегчения обучения, используя набор фотографий, отредактированных экспертами, мы синтезируем набор данных для рассуждений, процедурно манипулируя экспертными правками, а затем закрепляя предварительно обученную языковую модель на визуальных корректировках, чтобы синтезировать рассуждения для тонкой настройки. Предлагаемые операции ретуши, по своей сути, понятны пользователям, сохраняют детали объектов и разрешение, а также могут быть при необходимости переопределены. Мы оцениваем нашу систему на различных тестовых примерах и показываем её преимущества в плане объяснимости и сохранения идентичности по сравнению с существующими генеративными и другими процедурными альтернативами. Код, данные, модели и дополнительные результаты доступны на нашем проектом сайте по адресу https://monetgpt.github.io.
English
Retouching is an essential task in post-manipulation of raw photographs. Generative editing, guided by text or strokes, provides a new tool accessible to users but can easily change the identity of the original objects in unacceptable and unpredictable ways. In contrast, although traditional procedural edits, as commonly supported by photoediting tools (e.g., Gimp, Lightroom), are conservative, they are still preferred by professionals. Unfortunately, professional quality retouching involves many individual procedural editing operations that is challenging to plan for most novices. In this paper, we ask if a multimodal large language model (MLLM) can be taught to critique raw photographs, suggest suitable remedies, and finally realize them with a given set of pre-authored procedural image operations. We demonstrate that MLLMs can be first made aware of the underlying image processing operations, by training them to solve specially designed visual puzzles. Subsequently, such an operation-aware MLLM can both plan and propose edit sequences. To facilitate training, given a set of expert-edited photos, we synthesize a reasoning dataset by procedurally manipulating the expert edits and then grounding a pretrained LLM on the visual adjustments, to synthesize reasoning for finetuning. The proposed retouching operations are, by construction, understandable by the users, preserve object details and resolution, and can be optionally overridden. We evaluate our setup on a variety of test examples and show advantages, in terms of explainability and identity preservation, over existing generative and other procedural alternatives. Code, data, models, and supplementary results can be found via our project website at https://monetgpt.github.io.

Summary

AI-Generated Summary

PDF71May 13, 2025