ChatPaper.aiChatPaper

VIBE: 시각적 지시 기반 편집기

VIBE: Visual Instruction Based Editor

January 5, 2026
저자: Grigorii Alekseenko, Aleksandr Gordeev, Irina Tolstykh, Bulat Suleimanov, Vladimir Dokholyan, Georgii Fedorov, Sergey Yakubson, Aleksandra Tsybina, Mikhail Chernyshov, Maksim Kuprashevich
cs.AI

초록

지시어 기반 이미지 편집은 생성형 AI 분야에서 가장 빠르게 발전하는 영역 중 하나입니다. 지난해 동안 이 분야는 높은 성능을 가진 상용 시스템과 함께 수십 개의 오픈소스 모델이 공개되며 새로운 수준에 도달했습니다. 그러나 현재 실제 환경에서 사용 가능한 수준의 품질을 달성하는 오픈소스 접근법은 제한적입니다. 또한 이러한 파이프라인의 주류를 이루는 디퓨전 백본은 대개 규모가 크고 많은 배포 및 연구 환경에서 계산 비용이 높으며, 널리 사용되는 변형 모델들은 일반적으로 60억에서 200억 개의 매개변수를 포함합니다. 본 논문은 현대적인 20억 매개변수 Qwen3-VL 모델을 편집 과정 가이드에, 16억 매개변수 디퓨전 모델 Sana1.5를 이미지 생성에 활용하는 컴팩트하고 높은 처리량을 가진 지시어 기반 이미지 편집 파이프라인을 제시합니다. 아키텍처, 데이터 처리, 훈련 구성 및 평가에 걸친 우리의 설계 결정은 이 규모에서 가능한 주요 편집 범주에서 높은 품질을 유지하면서 저비용 추론과 엄격한 소스 일관성을 목표로 합니다. ImgEdit 및 GEdit 벤치마크에서 평가한 결과, 제안 방법은 매개변수 수가 수 배 많고 추론 비용이更高的인 모델들을 포함하여 상당히 무거운 기준 모델들의 성능을 따라잡거나 능가하며, 속성 조정, 객체 제거, 배경 편집 및 대상 치환과 같이 입력 이미지 보존이 필요한 편집에서 특히 뛰어난 성능을 보입니다. 이 모델은 24GB GPU 메모리 내에 적재되며, NVIDIA H100에서 BF16 기준 추가 추론 최적화나 증류 없이 최대 2K 해상도의 편집된 이미지를 약 4초 만에 생성합니다.
English
Instruction-based image editing is among the fastest developing areas in generative AI. Over the past year, the field has reached a new level, with dozens of open-source models released alongside highly capable commercial systems. However, only a limited number of open-source approaches currently achieve real-world quality. In addition, diffusion backbones, the dominant choice for these pipelines, are often large and computationally expensive for many deployments and research settings, with widely used variants typically containing 6B to 20B parameters. This paper presents a compact, high-throughput instruction-based image editing pipeline that uses a modern 2B-parameter Qwen3-VL model to guide the editing process and the 1.6B-parameter diffusion model Sana1.5 for image generation. Our design decisions across architecture, data processing, training configuration, and evaluation target low-cost inference and strict source consistency while maintaining high quality across the major edit categories feasible at this scale. Evaluated on the ImgEdit and GEdit benchmarks, the proposed method matches or exceeds the performance of substantially heavier baselines, including models with several times as many parameters and higher inference cost, and is particularly strong on edits that require preserving the input image, such as an attribute adjustment, object removal, background edits, and targeted replacement. The model fits within 24 GB of GPU memory and generates edited images at up to 2K resolution in approximately 4 seconds on an NVIDIA H100 in BF16, without additional inference optimizations or distillation.
PDF452January 17, 2026