VIBE: Visueller Befehlsbasierter Editor
VIBE: Visual Instruction Based Editor
January 5, 2026
papers.authors: Grigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich
cs.AI
papers.abstract
Instruktionsbasierte Bildbearbeitung zählt zu den am schnellsten wachsenden Bereichen der generativen KI. Im vergangenen Jahr hat das Feld ein neues Niveau erreicht, mit dutzenden veröffentlichten Open-Source-Modellen neben leistungsstarken kommerziellen Systemen. Allerdings erreichen derzeit nur wenige Open-Source-Ansätze praxistaugliche Qualität. Zudem sind Diffusionsmodelle, die dominierende Wahl für diese Pipelines, oft groß und rechenintensiv für viele Einsatzgebiete und Forschungsumgebungen, wobei weit verbreitete Varianten typischerweise 6 bis 20 Milliarden Parameter enthalten. Dieses Paper stellt eine kompakte, hochdurchsatzfähige Pipeline zur instruktionsbasierten Bildbearbeitung vor, die ein modernes Qwen3-VL-Modell mit 2 Milliarden Parametern zur Steuerung des Bearbeitungsprozesses und das Diffusionsmodell Sana1.5 mit 1,6 Milliarden Parametern zur Bildgenerierung nutzt. Unsere Designentscheidungen in den Bereichen Architektur, Datenverarbeitung, Trainingskonfiguration und Evaluation zielen auf kostengünstige Inferenz und strikte Quellkonsistenz ab, bei gleichzeitiger Beibehaltung hoher Qualität über die wichtigsten Bearbeitungskategorien, die in diesem Maßstab möglich sind. Evaluierungen auf den Benchmarks ImgEdit und GEdit zeigen, dass die vorgeschlagene Methode die Leistung erheblich schwererer Baseline-Modelle erreicht oder übertrifft, einschließlich Modellen mit mehrfach so vielen Parametern und höheren Inferenzkosten, und besonders stark bei Bearbeitungen ist, die die Erhaltung des Ausgangsbildes erfordern, wie Attributanpassungen, Objektentfernung, Hintergrundbearbeitungen und gezielte Ersetzungen. Das Modell passt in 24 GB GPU-Speicher und erzeugt bearbeitete Bilder mit bis zu 2K-Auflösung in etwa 4 Sekunden auf einer NVIDIA H100 in BF16, ohne zusätzliche Inferenzoptimierungen oder Distillation.
English
Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.