ChatPaper.aiChatPaper

SliderEdit: Непрерывное редактирование изображений с детализированным управлением инструкциями

SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

November 12, 2025
Авторы: Arman Zarei, Samyadeep Basu, Mobina Pournemat, Sayan Nag, Ryan Rossi, Soheil Feizi
cs.AI

Аннотация

Модели редактирования изображений на основе инструкций в последнее время демонстрируют впечатляющие результаты, позволяя выполнять сложные правки входного изображения по многосоставному текстовому запросу. Однако эти модели применяют каждую инструкцию в запросе с фиксированной интенсивностью, что ограничивает возможность пользователя точно и плавно контролировать силу отдельных правок. Мы представляем SliderEdit — фреймворк для непрерывного редактирования изображений с детализированным и интерпретируемым управлением через инструкции. Для заданной многосоставной инструкции редактирования SliderEdit разделяет отдельные инструкции и представляет каждую в виде глобально обученного слайдера, позволяя плавно регулировать её интенсивность. В отличие от предыдущих работ, вводивших слайдеры для управления атрибутами в задачах генерации изображений по тексту, что обычно требует отдельного обучения или дообучения для каждого атрибута или концепции, наш метод обучает единый набор матриц низкоранговой адаптации, который обобщается для разнообразных правок, атрибутов и композиционных инструкций. Это позволяет осуществлять непрерывную интерполяцию по отдельным измерениям редактирования, сохраняя как пространственную локальность, так и глобальную семантическую согласованность. Мы применяем SliderEdit к передовым моделям редактирования изображений, включая FLUX-Kontext и Qwen-Image-Edit, и наблюдаем существенное улучшение управляемости правками, визуальной согласованности и возможности взаимодействия с пользователем. Насколько нам известно, мы первые, кто исследует и предлагает фреймворк для непрерывного, детализированного управления через инструкции в моделях редактирования изображений на их основе. Наши результаты открывают путь к интерактивному, управляемому инструкциями манипулированию изображениями с непрерывным и композиционным контролем.
English
Instruction-based image editing models have recently achieved impressive performance, enabling complex edits to an input image from a multi-instruction prompt. However, these models apply each instruction in the prompt with a fixed strength, limiting the user's ability to precisely and continuously control the intensity of individual edits. We introduce SliderEdit, a framework for continuous image editing with fine-grained, interpretable instruction control. Given a multi-part edit instruction, SliderEdit disentangles the individual instructions and exposes each as a globally trained slider, allowing smooth adjustment of its strength. Unlike prior works that introduced slider-based attribute controls in text-to-image generation, typically requiring separate training or fine-tuning for each attribute or concept, our method learns a single set of low-rank adaptation matrices that generalize across diverse edits, attributes, and compositional instructions. This enables continuous interpolation along individual edit dimensions while preserving both spatial locality and global semantic consistency. We apply SliderEdit to state-of-the-art image editing models, including FLUX-Kontext and Qwen-Image-Edit, and observe substantial improvements in edit controllability, visual consistency, and user steerability. To the best of our knowledge, we are the first to explore and propose a framework for continuous, fine-grained instruction control in instruction-based image editing models. Our results pave the way for interactive, instruction-driven image manipulation with continuous and compositional control.
PDF83December 1, 2025