시각적 지시를 모델이 얼마나 잘 따르는가? VIBE: 시각적 지시 기반 이미지 편집을 위한 체계적 벤치마크
How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
February 2, 2026
저자: Huanyu Zhang, Xuehai Bai, Chengzu Li, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI
초록
최근 생성 모델은 이미지 편집 분야에서 놀라운 발전을 이루었습니다. 그러나 기존 시스템과 벤치마크는 대부분 텍스트 기반으로 남아 있습니다. 이와 대조적으로 인간의 의사소통은 본질적으로 다중 모달적이며, 스케치와 같은 시각적 지시는 공간적 및 구조적 의도를 효율적으로 전달합니다. 이러한 격차를 해결하기 위해 우리는 지시적 기반, 형태론적 조작, 인과적 추론을 포착하는 3단계 상호작용 계층 구조를 가진 시각적 지시 이미지 편집 벤치마크인 VIBE를 소개합니다. 이러한 단계 전반에 걸쳐 우리는 시각적 지시 수행의 점진적으로 증가하는 복잡성을 반영하는 고품질 및 다양한 테스트 케이스를 선별했습니다. 더 나아가 확장 가능하고 세분화된 평가를 가능하게 하는 과제 특화 지표를 갖춘 강력한 LMM-as-a-judge 평가 프레임워크를 제안합니다. 17개의 대표적인 오픈소스 및 상용 이미지 편집 모델에 대한 포괄적 평가를 통해, 우리는 상용 모델이 초기 단계의 시각적 지시 수행 능력을 보여주며 오픈소스 모델을 지속적으로 능가한다는 사실을 발견했습니다. 그러나 가장 강력한 시스템에서도 작업 난이도가 증가함에 따라 성능이 현저히 저하되어, 향후 연구를 위한 유망한 방향성을 부각시킵니다.
English
Recent generative models have achieved remarkable progress in image editing. However, existing systems and benchmarks remain largely text-guided. In contrast, human communication is inherently multimodal, where visual instructions such as sketches efficiently convey spatial and structural intent. To address this gap, we introduce VIBE, the Visual Instruction Benchmark for Image Editing with a three-level interaction hierarchy that captures deictic grounding, morphological manipulation, and causal reasoning. Across these levels, we curate high-quality and diverse test cases that reflect progressively increasing complexity in visual instruction following. We further propose a robust LMM-as-a-judge evaluation framework with task-specific metrics to enable scalable and fine-grained assessment. Through a comprehensive evaluation of 17 representative open-source and proprietary image editing models, we find that proprietary models exhibit early-stage visual instruction-following capabilities and consistently outperform open-source models. However, performance degrades markedly with increasing task difficulty even for the strongest systems, highlighting promising directions for future research.