SliderEdit: Modifica Continua di Immagini con Controllo Istruzionale a Grana Fine
SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control
November 12, 2025
Autori: Arman Zarei, Samyadeep Basu, Mobina Pournemat, Sayan Nag, Ryan Rossi, Soheil Feizi
cs.AI
Abstract
I modelli di editing basati su istruzioni hanno recentemente ottenuto prestazioni impressionanti, consentendo modifiche complesse a un'immagine di input a partire da un prompt multi-istruzione. Tuttavia, questi modelli applicano ciascuna istruzione nel prompt con un'intensità fissa, limitando la capacità dell'utente di controllare con precisione e in modo continuo l'intensità delle singole modifiche. Introduciamo SliderEdit, un framework per l'editing continuo di immagini con un controllo istruzionale fine e interpretabile. Dato un prompt di modifica multi-parte, SliderEdit separa le singole istruzioni e le espone ciascuna come uno slider addestrato globalmente, consentendo una regolazione fluida della sua intensità. A differenza dei lavori precedenti che hanno introdotto controlli basati su slider per attributi nella generazione di immagini da testo, che tipicamente richiedono un addestramento o un fine-tuning separato per ogni attributo o concetto, il nostro metodo apprende un unico insieme di matrici di adattamento low-rank che generalizzano su diverse modifiche, attributi e istruzioni compositive. Ciò consente un'interpolazione continua lungo le singole dimensioni di modifica preservando sia la località spaziale che la coerenza semantica globale. Applichiamo SliderEdit a modelli di editing di immagini all'avanguardia, inclusi FLUX-Kontext e Qwen-Image-Edit, e osserviamo miglioramenti sostanziali nella controllabilità dell'editing, nella coerenza visiva e nella guidabilità da parte dell'utente. Per quanto a nostra conoscenza, siamo i primi a esplorare e proporre un framework per il controllo istruzionale continuo e di grana fine nei modelli di editing basati su istruzioni. I nostri risultati aprono la strada a una manipolazione interattiva delle immagini guidata da istruzioni con controllo continuo e compositivo.
English
Instruction-based image editing models have recently achieved impressive performance, enabling complex edits to an input image from a multi-instruction prompt. However, these models apply each instruction in the prompt with a fixed strength, limiting the user's ability to precisely and continuously control the intensity of individual edits. We introduce SliderEdit, a framework for continuous image editing with fine-grained, interpretable instruction control. Given a multi-part edit instruction, SliderEdit disentangles the individual instructions and exposes each as a globally trained slider, allowing smooth adjustment of its strength. Unlike prior works that introduced slider-based attribute controls in text-to-image generation, typically requiring separate training or fine-tuning for each attribute or concept, our method learns a single set of low-rank adaptation matrices that generalize across diverse edits, attributes, and compositional instructions. This enables continuous interpolation along individual edit dimensions while preserving both spatial locality and global semantic consistency. We apply SliderEdit to state-of-the-art image editing models, including FLUX-Kontext and Qwen-Image-Edit, and observe substantial improvements in edit controllability, visual consistency, and user steerability. To the best of our knowledge, we are the first to explore and propose a framework for continuous, fine-grained instruction control in instruction-based image editing models. Our results pave the way for interactive, instruction-driven image manipulation with continuous and compositional control.