VIBE: Editor Basado en Instrucciones Visuales
VIBE: Visual Instruction Based Editor
January 5, 2026
Autores: Grigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich
cs.AI
Resumen
La edición de imágenes basada en instrucciones es una de las áreas de más rápido desarrollo en la inteligencia artificial generativa. En el último año, el campo ha alcanzado un nuevo nivel, con docenas de modelos de código abierto publicados junto con sistemas comerciales altamente capacitados. Sin embargo, actualmente solo un número limitado de enfoques de código abierto logra una calidad aplicable en escenarios reales. Además, los modelos de difusión, que son la opción dominante para estos pipelines, suelen ser grandes y computacionalmente costosos para muchos despliegues y entornos de investigación, con variantes ampliamente utilizadas que normalmente contienen entre 6B y 20B parámetros. Este artículo presenta un pipeline compacto y de alto rendimiento para la edición de imágenes basada en instrucciones que utiliza un modelo moderno Qwen3-VL de 2B parámetros para guiar el proceso de edición y el modelo de difusión Sana1.5 de 1.6B parámetros para la generación de imágenes. Nuestras decisiones de diseño en cuanto a arquitectura, procesamiento de datos, configuración de entrenamiento y evaluación están orientadas a una inferencia de bajo costo y una estricta consistencia con la imagen fuente, manteniendo una alta calidad en las principales categorías de edición factibles a esta escala. Evaluado en los benchmarks ImgEdit y GEdit, el método propuesto iguala o supera el rendimiento de líneas base sustancialmente más pesadas, incluidos modelos con varias veces más parámetros y mayor costo de inferencia, y es particularmente fuerte en ediciones que requieren preservar la imagen de entrada, como ajustes de atributos, eliminación de objetos, ediciones de fondo y reemplazos específicos. El modelo cabe dentro de 24 GB de memoria GPU y genera imágenes editadas con una resolución de hasta 2K en aproximadamente 4 segundos en una NVIDIA H100 con precisión BF16, sin optimizaciones de inferencia adicionales o destilación.
English
Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.