ChatPaper.aiChatPaper

SliderEdit: 細粒度の指示制御による連続的画像編集

SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control

November 12, 2025
著者: Arman Zarei, Samyadeep Basu, Mobina Pournemat, Sayan Nag, Ryan Rossi, Soheil Feizi
cs.AI

要旨

命令ベースの画像編集モデルは近年目覚ましい性能を達成し、複数の命令プロンプトから入力画像に対して複雑な編集を可能にしている。しかし、これらのモデルはプロンプト内の各命令を固定された強度で適用するため、個々の編集強度を精密かつ連続的に制御するユーザーの能力が制限されている。本論文では、細粒度で解釈可能な命令制御を備えた連続的画像編集フレームワーク「SliderEdit」を提案する。複数部分からなる編集命令が与えられた場合、SliderEditは個々の命令を分離し、それぞれをグローバルに学習されたスライダーとして公開し、その強度をスムーズに調整できるようにする。テキストから画像への生成においてスライダーベースの属性制御を導入した従来研究(各属性や概念に対して個別の学習やファインチューニングが必要となることが一般的)とは異なり、我々の手法は多様な編集、属性、合成的命令に汎化する単一の低ランク適応行列群を学習する。これにより、空間的局所性と大域的な意味的一貫性の両方を保ちながら、個々の編集次元に沿った連続的な補間が可能となる。SliderEditをFLUX-KontextやQwen-Image-Editなどの最先端画像編集モデルに適用した結果、編集の制御性、視覚的一貫性、ユーザーによる操縦性において大幅な改善が観察された。我々の知る限り、命令ベース画像編集モデルにおける連続的かつ細粒度な命令制御のフレームワークを探求し提案するのは本研究が初めてである。本成果は、連続的かつ合成的な制御を備えた対話型の命令駆動画像操作への道を開くものである。
English
Instruction-based image editing models have recently achieved impressive performance, enabling complex edits to an input image from a multi-instruction prompt. However, these models apply each instruction in the prompt with a fixed strength, limiting the user's ability to precisely and continuously control the intensity of individual edits. We introduce SliderEdit, a framework for continuous image editing with fine-grained, interpretable instruction control. Given a multi-part edit instruction, SliderEdit disentangles the individual instructions and exposes each as a globally trained slider, allowing smooth adjustment of its strength. Unlike prior works that introduced slider-based attribute controls in text-to-image generation, typically requiring separate training or fine-tuning for each attribute or concept, our method learns a single set of low-rank adaptation matrices that generalize across diverse edits, attributes, and compositional instructions. This enables continuous interpolation along individual edit dimensions while preserving both spatial locality and global semantic consistency. We apply SliderEdit to state-of-the-art image editing models, including FLUX-Kontext and Qwen-Image-Edit, and observe substantial improvements in edit controllability, visual consistency, and user steerability. To the best of our knowledge, we are the first to explore and propose a framework for continuous, fine-grained instruction control in instruction-based image editing models. Our results pave the way for interactive, instruction-driven image manipulation with continuous and compositional control.
PDF83December 1, 2025