SliderEdit: 미세한 지시어 제어를 통한 연속적 이미지 편집
SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control
November 12, 2025
저자: Arman Zarei, Samyadeep Basu, Mobina Pournemat, Sayan Nag, Ryan Rossi, Soheil Feizi
cs.AI
초록
지시 기반 이미지 편집 모델은 최근 멀티-지시 프롬프트를 통해 입력 이미지에 복잡한 편집을 적용하며 인상적인 성능을 달성했습니다. 그러나 이러한 모델들은 프롬프트의 각 지시를 고정된 강도로 적용하여 사용자가 개별 편집의 강도를 정밀하고 연속적으로 제어하는 능력을 제한합니다. 본 연구에서는 세밀하고 해석 가능한 지시 제어를 통한 연속적 이미지 편집 프레임워크인 SliderEdit를 소개합니다. 다중 부분으로 구성된 편집 지시가 주어지면, SliderEdit는 개별 지시들을 분리하여 각각을 전역적으로 학습된 슬라이더로 제공하여 그 강도를 부드럽게 조정할 수 있게 합니다. 텍스트-이미지 생성에서 슬라이더 기반 속성 제어를 도입한 기존 연구들이 일반적으로 각 속성이나 개념에 대한 별도의 학습 또는 미세 조정을 필요로 했던 것과 달리, 우리의 방법은 다양한 편집, 속성, 그리고 조합적 지시에 걸쳐 일반화되는 단일 저순위 적응 행렬 세트를 학습합니다. 이는 공간적 지역성과 전역적 의미 일관성을 모두 유지하면서 개별 편집 차원을 따라 연속적인 보간을 가능하게 합니다. 우리는 SliderEdit를 FLUX-Kontext 및 Qwen-Image-Edit를 포함한 최첨단 이미지 편집 모델에 적용하고, 편집 제어성, 시각적 일관성 및 사용자 조종성에서 상당한 향상을 관찰했습니다. 우리가 아는 한, 우리는 지시 기반 이미지 편집 모델에서 연속적이고 세밀한 지시 제어를 위한 프레임워크를 최초로 탐구하고 제안합니다. 우리의 결과는 연속적이고 조합적인 제어가 가능한 상호작용형, 지시 주도 이미지 조작의 길을 열어줍니다.
English
Instruction-based image editing models have recently achieved impressive performance, enabling complex edits to an input image from a multi-instruction prompt. However, these models apply each instruction in the prompt with a fixed strength, limiting the user's ability to precisely and continuously control the intensity of individual edits. We introduce SliderEdit, a framework for continuous image editing with fine-grained, interpretable instruction control. Given a multi-part edit instruction, SliderEdit disentangles the individual instructions and exposes each as a globally trained slider, allowing smooth adjustment of its strength. Unlike prior works that introduced slider-based attribute controls in text-to-image generation, typically requiring separate training or fine-tuning for each attribute or concept, our method learns a single set of low-rank adaptation matrices that generalize across diverse edits, attributes, and compositional instructions. This enables continuous interpolation along individual edit dimensions while preserving both spatial locality and global semantic consistency. We apply SliderEdit to state-of-the-art image editing models, including FLUX-Kontext and Qwen-Image-Edit, and observe substantial improvements in edit controllability, visual consistency, and user steerability. To the best of our knowledge, we are the first to explore and propose a framework for continuous, fine-grained instruction control in instruction-based image editing models. Our results pave the way for interactive, instruction-driven image manipulation with continuous and compositional control.