Kontinuous Kontext: 指示に基づく画像編集のための連続的強度制御
Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing
October 9, 2025
著者: Rishubh Parihar, Or Patashnik, Daniil Ostashev, R. Venkatesh Babu, Daniel Cohen-Or, Kuan-Chieh Wang
cs.AI
要旨
指示に基づく画像編集は、自然言語を通じて画像を操作する強力で直感的な方法を提供する。しかし、テキスト指示のみに依存することは、編集の範囲に対する細かな制御を制限する。本論文では、Kontinuous Kontextを紹介する。これは、編集の強度を新たな次元で制御する指示駆動型編集モデルであり、ユーザーが編集を徐々に調整し、変更なしから完全な結果まで滑らかで連続的な方法で実現できるようにする。Kontinuous Kontextは、最先端の画像編集モデルを拡張し、編集指示とペアになる追加の入力としてスカラー編集強度を受け入れることで、編集の範囲を明示的に制御する。このスカラー情報を注入するために、入力スカラーと編集指示をモデルの変調空間の係数にマッピングする軽量なプロジェクターネットワークを訓練する。モデルの訓練のために、既存の生成モデルを使用して多様な画像-編集-指示-強度の四つ組データセットを合成し、品質と一貫性を確保するためのフィルタリング段階を経る。Kontinuous Kontextは、スタイライゼーション、属性、素材、背景、形状変更など多様な操作において、属性固有の訓練を必要とせずに、指示駆動型編集の編集強度を微調整する統一的なアプローチを提供する。
English
Instruction-based image editing offers a powerful and intuitive way to
manipulate images through natural language. Yet, relying solely on text
instructions limits fine-grained control over the extent of edits. We introduce
Kontinuous Kontext, an instruction-driven editing model that provides a new
dimension of control over edit strength, enabling users to adjust edits
gradually from no change to a fully realized result in a smooth and continuous
manner. Kontinuous Kontext extends a state-of-the-art image editing model to
accept an additional input, a scalar edit strength which is then paired with
the edit instruction, enabling explicit control over the extent of the edit. To
inject this scalar information, we train a lightweight projector network that
maps the input scalar and the edit instruction to coefficients in the model's
modulation space. For training our model, we synthesize a diverse dataset of
image-edit-instruction-strength quadruplets using existing generative models,
followed by a filtering stage to ensure quality and consistency. Kontinuous
Kontext provides a unified approach for fine-grained control over edit strength
for instruction driven editing from subtle to strong across diverse operations
such as stylization, attribute, material, background, and shape changes,
without requiring attribute-specific training.