Непрерывный контекст: Управление непрерывной силой для редактирования изображений на основе инструкций
Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing
October 9, 2025
Авторы: Rishubh Parihar, Or Patashnik, Daniil Ostashev, R. Venkatesh Babu, Daniel Cohen-Or, Kuan-Chieh Wang
cs.AI
Аннотация
Редактирование изображений на основе инструкций предлагает мощный и интуитивно понятный способ манипуляции изображениями с использованием естественного языка. Однако полагаться исключительно на текстовые инструкции ограничивает возможность точного контроля над степенью изменений. Мы представляем Kontinuous Kontext — модель редактирования, управляемую инструкциями, которая предоставляет новый уровень контроля над силой редактирования, позволяя пользователям плавно и непрерывно регулировать изменения от отсутствия изменений до полностью реализованного результата. Kontinuous Kontext расширяет современную модель редактирования изображений, добавляя возможность принимать дополнительный входной параметр — скалярную величину силы редактирования, которая затем сочетается с инструкцией, обеспечивая явный контроль над степенью изменений. Для внедрения этой скалярной информации мы обучаем легковесную проекторную сеть, которая отображает входной скаляр и инструкцию редактирования в коэффициенты в пространстве модуляции модели. Для обучения нашей модели мы синтезируем разнообразный набор данных, состоящий из четверок "изображение-редактирование-инструкция-сила", используя существующие генеративные модели, с последующим этапом фильтрации для обеспечения качества и согласованности. Kontinuous Kontext предлагает унифицированный подход для точного контроля над силой редактирования в задачах, управляемых инструкциями, от тонких до значительных изменений, включая стилизацию, изменение атрибутов, материалов, фона и формы, без необходимости обучения для конкретных атрибутов.
English
Instruction-based image editing offers a powerful and intuitive way to
manipulate images through natural language. Yet, relying solely on text
instructions limits fine-grained control over the extent of edits. We introduce
Kontinuous Kontext, an instruction-driven editing model that provides a new
dimension of control over edit strength, enabling users to adjust edits
gradually from no change to a fully realized result in a smooth and continuous
manner. Kontinuous Kontext extends a state-of-the-art image editing model to
accept an additional input, a scalar edit strength which is then paired with
the edit instruction, enabling explicit control over the extent of the edit. To
inject this scalar information, we train a lightweight projector network that
maps the input scalar and the edit instruction to coefficients in the model's
modulation space. For training our model, we synthesize a diverse dataset of
image-edit-instruction-strength quadruplets using existing generative models,
followed by a filtering stage to ensure quality and consistency. Kontinuous
Kontext provides a unified approach for fine-grained control over edit strength
for instruction driven editing from subtle to strong across diverse operations
such as stylization, attribute, material, background, and shape changes,
without requiring attribute-specific training.