SliderEdit: Edição Contínua de Imagens com Controle de Instruções de Granularidade Fina

Resumo

Os modelos de edição de imagens baseados em instrução têm alcançado recentemente desempenhos impressionantes, permitindo edições complexas em uma imagem de entrada a partir de um prompt com múltiplas instruções. No entanto, esses modelos aplicam cada instrução do prompt com uma intensidade fixa, limitando a capacidade do usuário de controlar com precisão e continuidade a intensidade de edições individuais. Apresentamos o SliderEdit, uma estrutura para edição contínua de imagens com controle de instrução de granularidade fina e interpretável. Dada uma instrução de edição com múltiplas partes, o SliderEdit separa as instruções individuais e expõe cada uma como um controle deslizante treinado globalmente, permitindo ajuste suave de sua intensidade. Diferente de trabalhos anteriores que introduziram controles deslizantes de atributos na geração de texto para imagem – que geralmente exigem treinamento ou ajuste separado para cada atributo ou conceito – nosso método aprende um único conjunto de matrizes de adaptação de baixo posto que generaliza para diversas edições, atributos e instruções composicionais. Isso permite interpolação contínua ao longo de dimensões de edição individuais, preservando tanto a localidade espacial quanto a consistência semântica global. Aplicamos o SliderEdit a modelos de edição de imagem de última geração, incluindo FLUX-Kontext e Qwen-Image-Edit, e observamos melhorias substanciais na controlabilidade da edição, consistência visual e capacidade de direcionamento pelo usuário. Até onde sabemos, somos os primeiros a explorar e propor uma estrutura para controle contínuo de instrução de granularidade fina em modelos de edição de imagem baseados em instrução. Nossos resultados abrem caminho para manipulação de imagens interativa e orientada por instrução com controle contínuo e composicional.

English

Instruction-based image editing models have recently achieved impressive performance, enabling complex edits to an input image from a multi-instruction prompt. However, these models apply each instruction in the prompt with a fixed strength, limiting the user's ability to precisely and continuously control the intensity of individual edits. We introduce SliderEdit, a framework for continuous image editing with fine-grained, interpretable instruction control. Given a multi-part edit instruction, SliderEdit disentangles the individual instructions and exposes each as a globally trained slider, allowing smooth adjustment of its strength. Unlike prior works that introduced slider-based attribute controls in text-to-image generation, typically requiring separate training or fine-tuning for each attribute or concept, our method learns a single set of low-rank adaptation matrices that generalize across diverse edits, attributes, and compositional instructions. This enables continuous interpolation along individual edit dimensions while preserving both spatial locality and global semantic consistency. We apply SliderEdit to state-of-the-art image editing models, including FLUX-Kontext and Qwen-Image-Edit, and observe substantial improvements in edit controllability, visual consistency, and user steerability. To the best of our knowledge, we are the first to explore and propose a framework for continuous, fine-grained instruction control in instruction-based image editing models. Our results pave the way for interactive, instruction-driven image manipulation with continuous and compositional control.

SliderEdit: Edição Contínua de Imagens com Controle de Instruções de Granularidade Fina

SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

Resumo

Support