ChatPaper.aiChatPaper

SliderEdit: Edición Continua de Imágenes con Control de Instrucciones de Grano Fino

SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

November 12, 2025
Autores: Arman Zarei, Samyadeep Basu, Mobina Pournemat, Sayan Nag, Ryan Rossi, Soheil Feizi
cs.AI

Resumen

Los modelos de edición de imágenes basados en instrucciones han logrado recientemente un rendimiento impresionante, permitiendo ediciones complejas en una imagen de entrada a partir de un prompt de múltiples instrucciones. Sin embargo, estos modelos aplican cada instrucción del prompt con una intensidad fija, lo que limita la capacidad del usuario para controlar con precisión y de forma continua la intensidad de las ediciones individuales. Presentamos SliderEdit, un marco de trabajo para la edición continua de imágenes con un control de instrucciones de grano fino e interpretable. Dada una instrucción de edición de múltiples partes, SliderEdit desentrelaza las instrucciones individuales y expone cada una como un control deslizante (slider) entrenado globalmente, permitiendo un ajuste suave de su intensidad. A diferencia de trabajos anteriores que introdujeron controles de atributos basados en sliders en la generación de imágenes a partir de texto, que normalmente requieren entrenamiento o ajuste fino separado para cada atributo o concepto, nuestro método aprende un único conjunto de matrices de adaptación de bajo rango que generalizan a través de diversas ediciones, atributos e instrucciones composicionales. Esto permite una interpolación continua a lo largo de dimensiones de edición individuales mientras se preserva tanto la localidad espacial como la coherencia semántica global. Aplicamos SliderEdit a modelos de edición de imágenes de última generación, incluyendo FLUX-Kontext y Qwen-Image-Edit, y observamos mejoras sustanciales en la controlabilidad de la edición, la consistencia visual y la capacidad de dirección por parte del usuario. Hasta donde sabemos, somos los primeros en explorar y proponer un marco de trabajo para el control continuo y de grano fino de instrucciones en modelos de edición de imágenes basados en instrucciones. Nuestros resultados allanan el camino para la manipulación de imágenes interactiva e impulsada por instrucciones con control continuo y composicional.
English
Instruction-based image editing models have recently achieved impressive performance, enabling complex edits to an input image from a multi-instruction prompt. However, these models apply each instruction in the prompt with a fixed strength, limiting the user's ability to precisely and continuously control the intensity of individual edits. We introduce SliderEdit, a framework for continuous image editing with fine-grained, interpretable instruction control. Given a multi-part edit instruction, SliderEdit disentangles the individual instructions and exposes each as a globally trained slider, allowing smooth adjustment of its strength. Unlike prior works that introduced slider-based attribute controls in text-to-image generation, typically requiring separate training or fine-tuning for each attribute or concept, our method learns a single set of low-rank adaptation matrices that generalize across diverse edits, attributes, and compositional instructions. This enables continuous interpolation along individual edit dimensions while preserving both spatial locality and global semantic consistency. We apply SliderEdit to state-of-the-art image editing models, including FLUX-Kontext and Qwen-Image-Edit, and observe substantial improvements in edit controllability, visual consistency, and user steerability. To the best of our knowledge, we are the first to explore and propose a framework for continuous, fine-grained instruction control in instruction-based image editing models. Our results pave the way for interactive, instruction-driven image manipulation with continuous and compositional control.
PDF83December 1, 2025