VIBE: Editor Baseado em Instrução Visual

Resumo

A edição de imagens baseada em instruções está entre as áreas de mais rápido desenvolvimento na IA generativa. No último ano, o campo atingiu um novo patamar, com dezenas de modelos de código aberto lançados juntamente com sistemas comerciais altamente capacitados. No entanto, apenas um número limitado de abordagens de código aberto alcança atualmente qualidade para aplicações reais. Além disso, os modelos de difusão, a escolha dominante para esses fluxos de trabalho, são frequentemente grandes e computacionalmente dispendiosos para muitas implementações e ambientes de pesquisa, com variantes amplamente utilizadas contendo tipicamente entre 6B e 20B de parâmetros. Este artigo apresenta um fluxo de trabalho compacto e de alto rendimento para edição de imagens baseada em instruções, que utiliza o modelo moderno Qwen3-VL de 2B de parâmetros para orientar o processo de edição e o modelo de difusão Sana1.5 de 1.6B de parâmetros para a geração de imagens. As nossas decisões de design em arquitetura, processamento de dados, configuração de treino e avaliação visam uma inferência de baixo custo e uma estrita consistência com a imagem fonte, mantendo alta qualidade nas principais categorias de edição viáveis nesta escala. Avaliado nos benchmarks ImgEdit e GEdit, o método proposto iguala ou supera o desempenho de linhas de base substancialmente mais pesadas, incluindo modelos com várias vezes mais parâmetros e custo de inferência superior, e é particularmente forte em edições que exigem a preservação da imagem de entrada, como ajuste de atributos, remoção de objetos, edições de fundo e substituição direcionada. O modelo cabe dentro de 24 GB de memória GPU e gera imagens editadas com resolução de até 2K em aproximadamente 4 segundos numa NVIDIA H100 em BF16, sem otimizações de inferência adicionais ou destilação.

English

Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.

VIBE: Editor Baseado em Instrução Visual

VIBE: Visual Instruction Based Editor

Resumo

Support