Kontinuous Kontext: 지시 기반 이미지 편집을 위한 연속적 강도 제어
Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing
October 9, 2025
저자: Rishubh Parihar, Or Patashnik, Daniil Ostashev, R. Venkatesh Babu, Daniel Cohen-Or, Kuan-Chieh Wang
cs.AI
초록
명령 기반 이미지 편집은 자연어를 통해 이미지를 조작할 수 있는 강력하고 직관적인 방법을 제공합니다. 그러나 텍스트 명령에만 의존할 경우 편집의 정도에 대한 세밀한 제어가 제한됩니다. 우리는 Kontinuous Kontext를 소개하며, 이는 편집 강도에 대한 새로운 차원의 제어를 제공하여 사용자가 아무런 변화 없음부터 완전히 구현된 결과까지 부드럽고 연속적인 방식으로 편집을 조정할 수 있게 합니다. Kontinuous Kontext는 최신 이미지 편집 모델을 확장하여 추가 입력으로 스칼라 편집 강도를 받아들이고, 이를 편집 명령과 짝지어 편집의 정도를 명시적으로 제어할 수 있게 합니다. 이 스칼라 정보를 주입하기 위해, 우리는 입력 스칼라와 편집 명령을 모델의 변조 공간에서의 계수로 매핑하는 경량 프로젝터 네트워크를 학습시킵니다. 모델 학습을 위해, 우리는 기존 생성 모델을 사용하여 다양한 이미지-편집-명령-강도 사중항 데이터셋을 합성하고, 품질과 일관성을 보장하기 위한 필터링 단계를 거칩니다. Kontinuous Kontext는 스타일화, 속성, 재질, 배경, 형태 변경 등 다양한 작업에 걸쳐 미묘한 편집부터 강력한 편집까지 명령 기반 편집의 세밀한 제어를 위한 통합된 접근 방식을 제공하며, 속성별 학습을 요구하지 않습니다.
English
Instruction-based image editing offers a powerful and intuitive way to
manipulate images through natural language. Yet, relying solely on text
instructions limits fine-grained control over the extent of edits. We introduce
Kontinuous Kontext, an instruction-driven editing model that provides a new
dimension of control over edit strength, enabling users to adjust edits
gradually from no change to a fully realized result in a smooth and continuous
manner. Kontinuous Kontext extends a state-of-the-art image editing model to
accept an additional input, a scalar edit strength which is then paired with
the edit instruction, enabling explicit control over the extent of the edit. To
inject this scalar information, we train a lightweight projector network that
maps the input scalar and the edit instruction to coefficients in the model's
modulation space. For training our model, we synthesize a diverse dataset of
image-edit-instruction-strength quadruplets using existing generative models,
followed by a filtering stage to ensure quality and consistency. Kontinuous
Kontext provides a unified approach for fine-grained control over edit strength
for instruction driven editing from subtle to strong across diverse operations
such as stylization, attribute, material, background, and shape changes,
without requiring attribute-specific training.