VIBE: Визуальный редактор на основе инструкций
VIBE: Visual Instruction Based Editor
January 5, 2026
Авторы: Grigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich
cs.AI
Аннотация
Редактирование изображений на основе инструкций является одной из наиболее быстро развивающихся областей генеративного искусственного интеллекта. За последний год эта сфера достигла нового уровня: были выпущены десятки моделей с открытым исходным кодом наряду с высокопроизводительными коммерческими системами. Однако в настоящее время лишь ограниченное число подходов с открытым исходным кодом обеспечивает качество, пригодное для практического применения. Кроме того, диффузионные модели, являющиеся доминирующим выбором для таких конвейеров, часто обладают большим размером и высокими вычислительными затратами для многих сценариев развертывания и исследований, при этом широко используемые варианты обычно содержат от 6 до 20 миллиардов параметров. В данной статье представлен компактный высокопроизводительный конвейер редактирования изображений на основе инструкций, который использует современную модель Qwen3-VL с 2 миллиардами параметров для управления процессом редактирования и диффузионную модель Sana1.5 с 1,6 миллиардами параметров для генерации изображений. Наши проектные решения в области архитектуры, обработки данных, конфигурации обучения и оценки нацелены на обеспечение недорогого вывода и строгой согласованности с исходным изображением при сохранении высокого качества для основных категорий редактирования, достижимых в данном масштабе. При оценке на бенчмарках ImgEdit и GEdit предложенный метод демонстрирует результаты на уровне или превосходящие производительность значительно более крупных базовых моделей, включая модели с параметрами в несколько раз больше и более высокой стоимостью вывода, и особенно эффективен при редактированиях, требующих сохранения входного изображения, таких как корректировка атрибутов, удаление объектов, изменение фона и целевая замена. Модель умещается в 24 ГБ памяти GPU и генерирует отредактированные изображения с разрешением до 2K приблизительно за 4 секунды на NVIDIA H100 в формате BF16 без дополнительной оптимизации вывода или дистилляции.
English
Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.