ChatPaper.aiChatPaper

SliderEdit: Kontinuierliche Bildbearbeitung mit fein abgestufter Anweisungskontrolle

SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

November 12, 2025
papers.authors: Arman Zarei, Samyadeep Basu, Mobina Pournemat, Sayan Nag, Ryan Rossi, Soheil Feizi
cs.AI

papers.abstract

Instruktionsbasierte Bildbearbeitungsmodelle haben kürzlich beeindruckende Leistungen erzielt und ermöglichen komplexe Bearbeitungen eines Eingabebildes anhand eines Multi-Instruktions-Prompts. Diese Modelle wenden jedoch jede Instruktion im Prompt mit einer festen Stärke an, was die Fähigkeit des Benutzers einschränkt, die Intensität einzelner Bearbeitungen präzise und kontinuierlich zu steuern. Wir stellen SliderEdit vor, ein Framework für kontinuierliche Bildbearbeitung mit fein abgestufter, interpretierbarer Instruktionskontrolle. Bei einer mehrteiligen Bearbeitungsanweisung entwirrt SliderEdit die einzelnen Instruktionen und macht jede als global trainierten Schieberegler verfügbar, was eine sanfte Anpassung ihrer Stärke ermöglicht. Im Gegensatz zu früheren Arbeiten, die schiebereglerbasierte Attributsteuerungen in der Text-zu-Bild-Generierung einführten – was typischerweise separate Trainings- oder Feinabstimmungsprozesse für jedes Attribut oder Konzept erforderte – lernt unsere Methode einen einzigen Satz von Low-Rank-Adaptationsmatrizen, die generalisierbar über diverse Bearbeitungen, Attribute und kompositionelle Anweisungen hinweg sind. Dies ermöglicht eine kontinuierliche Interpolation entlang einzelner Bearbeitungsdimensionen bei gleichzeitiger Bewahrung sowohl räumlicher Lokalität als auch globaler semantischer Konsistenz. Wir wenden SliderEdit auf state-of-the-art Bildbearbeitungsmodelle an, einschließlich FLUX-Kontext und Qwen-Image-Edit, und beobachten wesentliche Verbesserungen in der Bearbeitungskontrollierbarkeit, visuellen Konsistenz und Benutzersteuerbarkeit. Nach unserem besten Wissen sind wir die Ersten, die ein Framework für kontinuierliche, fein abgestufte Instruktionskontrolle in instruktionsbasierten Bildbearbeitungsmodellen erforschen und vorschlagen. Unsere Ergebnisse ebnen den Weg für interaktive, instruktionsgesteuerte Bildmanipulation mit kontinuierlicher und kompositioneller Kontrolle.
English
Instruction-based image editing models have recently achieved impressive performance, enabling complex edits to an input image from a multi-instruction prompt. However, these models apply each instruction in the prompt with a fixed strength, limiting the user's ability to precisely and continuously control the intensity of individual edits. We introduce SliderEdit, a framework for continuous image editing with fine-grained, interpretable instruction control. Given a multi-part edit instruction, SliderEdit disentangles the individual instructions and exposes each as a globally trained slider, allowing smooth adjustment of its strength. Unlike prior works that introduced slider-based attribute controls in text-to-image generation, typically requiring separate training or fine-tuning for each attribute or concept, our method learns a single set of low-rank adaptation matrices that generalize across diverse edits, attributes, and compositional instructions. This enables continuous interpolation along individual edit dimensions while preserving both spatial locality and global semantic consistency. We apply SliderEdit to state-of-the-art image editing models, including FLUX-Kontext and Qwen-Image-Edit, and observe substantial improvements in edit controllability, visual consistency, and user steerability. To the best of our knowledge, we are the first to explore and propose a framework for continuous, fine-grained instruction control in instruction-based image editing models. Our results pave the way for interactive, instruction-driven image manipulation with continuous and compositional control.
PDF83December 1, 2025