Quanto Seguono i Modelli le Istruzioni Visive? VIBE: Un Benchmark Sistematico per la Modifica di Immagini Guidata da Istruzioni Visive
How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing
February 2, 2026
Autori: Huanyu Zhang, Xuehai Bai, Chengzu Li, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI
Abstract
I recenti modelli generativi hanno compiuto progressi notevoli nell'editing di immagini. Tuttavia, i sistemi e i benchmark esistenti rimangono prevalentemente guidati dal testo. Al contrario, la comunicazione umana è intrinsecamente multimodale, dove istruzioni visive come gli schizzi trasmettono efficacemente intenti spaziali e strutturali. Per colmare questa lacuna, introduciamo VIBE, il Benchmark di Istruzioni Visive per l'Editing di Immagini, con una gerarchia di interazione a tre livelli che cattura l'ancoraggio deittico, la manipolazione morfologica e il ragionamento causale. Attraverso questi livelli, curiamo casi di test di alta qualità e diversificati che riflettono una complessità progressivamente crescente nel seguire le istruzioni visive. Proponiamo inoltre un robusto framework di valutazione LMM-as-a-judge con metriche specifiche per il compito, per consentire una valutazione scalabile e granulare. Attraverso una valutazione completa di 17 modelli rappresentativi di editing di immagini, open-source e proprietari, scopriamo che i modelli proprietari mostrano capacità iniziali di seguire istruzioni visive e superano costantemente i modelli open-source. Tuttavia, le prestazioni si degradano marcatamente con l'aumentare della difficoltà del compito anche per i sistemi più potenti, evidenziando direzioni promettenti per la ricerca futura.
English
Recent generative models have achieved remarkable progress in image editing. However, existing systems and benchmarks remain largely text-guided. In contrast, human communication is inherently multimodal, where visual instructions such as sketches efficiently convey spatial and structural intent. To address this gap, we introduce VIBE, the Visual Instruction Benchmark for Image Editing with a three-level interaction hierarchy that captures deictic grounding, morphological manipulation, and causal reasoning. Across these levels, we curate high-quality and diverse test cases that reflect progressively increasing complexity in visual instruction following. We further propose a robust LMM-as-a-judge evaluation framework with task-specific metrics to enable scalable and fine-grained assessment. Through a comprehensive evaluation of 17 representative open-source and proprietary image editing models, we find that proprietary models exhibit early-stage visual instruction-following capabilities and consistently outperform open-source models. However, performance degrades markedly with increasing task difficulty even for the strongest systems, highlighting promising directions for future research.