VIBE: 視覚的指示に基づく編集システム
VIBE: Visual Instruction Based Editor
January 5, 2026
著者: Grigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich
cs.AI
要旨
指示文に基づく画像編集は、生成AIにおいて最も急速に発展している分野の一つです。この1年で、数十のオープンソースモデルが高度な商用システムと共に公開され、この分野は新たな段階に到達しました。しかし、現実世界の品質を達成するオープンソース手法は現在限られています。さらに、これらのパイプラインで主流となっている拡散モデル基盤は、多くの実装環境や研究設定において、大規模で計算コストが高く、広く使用されているバリアントは通常60億から200億パラメータを含みます。本論文では、最新の20億パラメータのQwen3-VLモデルで編集プロセスを誘導し、16億パラメータの拡散モデルSana1.5で画像生成を行う、コンパクトで高スループットな指示文ベース画像編集パイプラインを提案します。アーキテクチャ、データ処理、学習設定、評価における設計判断は、低コスト推論と厳格なソース一貫性を目標としつつ、この規模で実現可能な主要編集カテゴリ全体で高品質を維持しています。ImgEditおよびGEditベンチマークでの評価では、提案手法はパラメータ数が数倍多く推論コストが高いベースラインを上回るか同等の性能を示し、属性調整、オブジェクト削除、背景編集、対象置換など入力画像の保持を必要とする編集において特に優れています。このモデルは24GBのGPUメモリ内に収まり、NVIDIA H100上でBF16精度時に追加の推論最適化や蒸留なしで最大2K解像度の編集画像を約4秒で生成します。
English
Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.