VIBE: Editor Basato su Istruzioni Visive

Abstract

L'editing di immagini basato su istruzioni rappresenta una delle aree in più rapida evoluzione nell'ambito dell'IA generativa. Nell'ultimo anno, il campo ha raggiunto un nuovo livello, con dozzine di modelli open-source rilasciati insieme a sistemi commerciali altamente capaci. Tuttavia, attualmente solo un numero limitato di approcci open-source raggiunge una qualità adatta per applicazioni reali. Inoltre, le architetture diffusion, la scelta dominante per queste pipeline, sono spesso voluminose e computazionalmente costose per molti deployment e contesti di ricerca, con varianti ampiamente utilizzate che tipicamente contengono da 6 a 20 miliardi di parametri. Questo articolo presenta una pipeline compatta e ad alta produttività per l'editing di immagini basato su istruzioni, che utilizza un moderno modello Qwen3-VL da 2 miliardi di parametri per guidare il processo di editing e il modello diffusion Sana1.5 da 1,6 miliardi di parametri per la generazione dell'immagine. Le nostre scelte progettuali relative all'architettura, all'elaborazione dei dati, alla configurazione dell'addestramento e alla valutazione mirano a un'inferenza a basso costo e a una rigorosa coerenza con l'immagine sorgente, mantenendo al contempo un'alta qualità nelle principali categorie di editing fattibili a questa scala. Valutato sui benchmark ImgEdit e GEdit, il metodo proposto eguaglia o supera le prestazioni di baseline sostanzialmente più pesanti, inclusi modelli con un numero di parametri diverse volte superiore e un costo di inferenza più elevato, ed è particolarmente efficace negli editing che richiedono la preservazione dell'immagine di input, come la regolazione di attributi, la rimozione di oggetti, le modifiche allo sfondo e le sostituzioni mirate. Il modello rientra in 24 GB di memoria GPU e genera immagini modificate con risoluzione fino a 2K in circa 4 secondi su una NVIDIA H100 in precisione BF16, senza ottimizzazioni aggiuntive per l'inferenza o distillazione.

English

Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.

VIBE: Editor Basato su Istruzioni Visive

VIBE: Visual Instruction Based Editor

Abstract

Support