VIBE: Visuele Instructie Gebaseerde Editor

Samenvatting

Instructiegestuurd beeldbewerking is een van de snelst ontwikkelende gebieden in generatieve AI. Het afgelopen jaar heeft het veld een nieuw niveau bereikt, met tientallen open-source modellen die zijn vrijgegeven naast zeer capabele commerciële systemen. Het aantal open-source benaderingen dat momenteel real-world kwaliteit bereikt, is echter beperkt. Daarnaast zijn diffusie-backbones, de dominante keuze voor deze pipelines, vaak groot en rekenkundig kostbaar voor veel implementaties en onderzoeksomgevingen, waarbij veelgebruikte varianten typisch 6B tot 20B parameters bevatten. Dit artikel presenteert een compacte, hoogdoorvoer instructiegestuurde beeldbewerkingspipeline die een modern 2B-parameter Qwen3-VL-model gebruikt om het bewerkingsproces te sturen en het 1.6B-parameter diffusiemodel Sana1.5 voor beeldgeneratie. Onze ontwerpbeslissingen op het gebied van architectuur, gegevensverwerking, trainingsconfiguratie en evaluatie richten zich op low-cost inferentie en strikte bronconsistentie, waarbij hoge kwaliteit wordt behouden across de belangrijkste bewerkingscategorieën die haalbaar zijn op deze schaal. Geëvalueerd op de ImgEdit- en GEdit-benchmarks, evenaart of overtreft de voorgestelde methode de prestaties van aanzienlijk zwaardere baselines, inclusief modellen met meerdere keren zoveel parameters en hogere inferentiekosten, en is bijzonder sterk bij bewerkingen die het behoud van de invoerafbeelding vereisen, zoals attribuutaanpassing, objectverwijdering, achtergrondbewerkingen en gerichte vervanging. Het model past binnen 24 GB GPU-geheugen en genereert bewerkte afbeeldingen met een resolutie tot 2K in ongeveer 4 seconden op een NVIDIA H100 in BF16, zonder aanvullende inferentie-optimalisaties of distillatie.

English

Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.

VIBE: Visuele Instructie Gebaseerde Editor

VIBE: Visual Instruction Based Editor

Samenvatting

Support