ChatPaper.aiChatPaper

VIBE : Éditeur basé sur des instructions visuelles

VIBE: Visual Instruction Based Editor

January 5, 2026
papers.authors: Grigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich
cs.AI

papers.abstract

L'édition d'images basée sur des instructions est l'un des domaines connaissant la croissance la plus rapide dans l'IA générative. Au cours de l'année écoulée, ce domaine a atteint un nouveau niveau, avec des dizaines de modèles open-source publiés parallèlement à des systèmes commerciaux très performants. Cependant, seul un nombre limité d'approches open-source atteint actuellement une qualité adaptée à un usage réel. De plus, les modèles de diffusion, choix dominant pour ces pipelines, sont souvent volumineux et coûteux en calculs pour de nombreux déploiements et cadres de recherche, les variantes largement utilisées contenant généralement de 6 à 20 milliards de paramètres. Cet article présente un pipeline d'édition d'images basé sur des instructions, compact et à haut débit, qui utilise un modèle moderne Qwen3-VL de 2 milliards de paramètres pour guider le processus d'édition et le modèle de diffusion Sana1.5 de 1,6 milliard de paramètres pour la génération d'images. Nos décisions de conception concernant l'architecture, le traitement des données, la configuration de l'entraînement et l'évaluation visent une inférence à faible coût et une stricte cohérence avec l'image source, tout en maintenant une qualité élevée dans les principales catégories d'édition réalisables à cette échelle. Évaluée sur les benchmarks ImgEdit et GEdit, la méthode proposée égale ou dépasse les performances de modèles de référence substantiellement plus lourds, y compris des modèles contenant plusieurs fois plus de paramètres et ayant un coût d'inférence plus élevé, et est particulièrement performante pour les modifications nécessitant la préservation de l'image d'entrée, telles que l'ajustement d'attribut, la suppression d'objet, les modifications de l'arrière-plan et le remplacement ciblé. Le modèle tient dans 24 Go de mémoire GPU et génère des images éditées jusqu'à une résolution 2K en environ 4 secondes sur un NVIDIA H100 en précision BF16, sans optimisations d'inférence supplémentaires ni distillation.
English
Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.
PDF452January 17, 2026