Непрерывный контекст: Управление непрерывной силой для редактирования изображений на основе инструкций

Аннотация

Редактирование изображений на основе инструкций предлагает мощный и интуитивно понятный способ манипуляции изображениями с использованием естественного языка. Однако полагаться исключительно на текстовые инструкции ограничивает возможность точного контроля над степенью изменений. Мы представляем Kontinuous Kontext — модель редактирования, управляемую инструкциями, которая предоставляет новый уровень контроля над силой редактирования, позволяя пользователям плавно и непрерывно регулировать изменения от отсутствия изменений до полностью реализованного результата. Kontinuous Kontext расширяет современную модель редактирования изображений, добавляя возможность принимать дополнительный входной параметр — скалярную величину силы редактирования, которая затем сочетается с инструкцией, обеспечивая явный контроль над степенью изменений. Для внедрения этой скалярной информации мы обучаем легковесную проекторную сеть, которая отображает входной скаляр и инструкцию редактирования в коэффициенты в пространстве модуляции модели. Для обучения нашей модели мы синтезируем разнообразный набор данных, состоящий из четверок "изображение-редактирование-инструкция-сила", используя существующие генеративные модели, с последующим этапом фильтрации для обеспечения качества и согласованности. Kontinuous Kontext предлагает унифицированный подход для точного контроля над силой редактирования в задачах, управляемых инструкциями, от тонких до значительных изменений, включая стилизацию, изменение атрибутов, материалов, фона и формы, без необходимости обучения для конкретных атрибутов.

English

Instruction-based image editing offers a powerful and intuitive way to manipulate images through natural language. Yet, relying solely on text instructions limits fine-grained control over the extent of edits. We introduce Kontinuous Kontext, an instruction-driven editing model that provides a new dimension of control over edit strength, enabling users to adjust edits gradually from no change to a fully realized result in a smooth and continuous manner. Kontinuous Kontext extends a state-of-the-art image editing model to accept an additional input, a scalar edit strength which is then paired with the edit instruction, enabling explicit control over the extent of the edit. To inject this scalar information, we train a lightweight projector network that maps the input scalar and the edit instruction to coefficients in the model's modulation space. For training our model, we synthesize a diverse dataset of image-edit-instruction-strength quadruplets using existing generative models, followed by a filtering stage to ensure quality and consistency. Kontinuous Kontext provides a unified approach for fine-grained control over edit strength for instruction driven editing from subtle to strong across diverse operations such as stylization, attribute, material, background, and shape changes, without requiring attribute-specific training.

Непрерывный контекст: Управление непрерывной силой для редактирования изображений на основе инструкций

Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing

Аннотация

Support