ChatPaper.aiChatPaper

¿Qué Tan Bien Siguen los Modelos las Instrucciones Visuales? VIBE: Un Punto de Referencia Sistemático para la Edición de Imágenes Guiada por Instrucciones Visuales

How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

February 2, 2026
Autores: Huanyu Zhang, Xuehai Bai, Chengzu Li, Chen Liang, Haochen Tian, Haodong Li, Ruichuan An, Yifan Zhang, Anna Korhonen, Zhang Zhang, Liang Wang, Tieniu Tan
cs.AI

Resumen

Los modelos generativos recientes han logrado avances notables en la edición de imágenes. Sin embargo, los sistemas y puntos de referencia existentes siguen siendo en gran medida guiados por texto. En contraste, la comunicación humana es inherentemente multimodal, donde instrucciones visuales como los bocetos transmiten eficientemente la intención espacial y estructural. Para abordar esta brecha, presentamos VIBE, el Punto de Referencia de Instrucción Visual para la Edición de Imágenes, con una jerarquía de interacción de tres niveles que captura la fundamentación deíctica, la manipulación morfológica y el razonamiento causal. En estos niveles, seleccionamos casos de prueba diversos y de alta calidad que reflejan una complejidad progresivamente creciente en el seguimiento de instrucciones visuales. Además, proponemos un marco de evaluación robusto de LMM-como-juez con métricas específicas para la tarea, que permite una evaluación escalable y granular. Mediante una evaluación exhaustiva de 17 modelos representativos de edición de imágenes, tanto de código abierto como propietarios, encontramos que los modelos propietarios exhiben capacidades incipientes de seguimiento de instrucciones visuales y superan consistentemente a los modelos de código abierto. No obstante, el rendimiento se degrada notablemente con el aumento de la dificultad de la tarea, incluso para los sistemas más potentes, lo que subraya direcciones prometedoras para la investigación futura.
English
Recent generative models have achieved remarkable progress in image editing. However, existing systems and benchmarks remain largely text-guided. In contrast, human communication is inherently multimodal, where visual instructions such as sketches efficiently convey spatial and structural intent. To address this gap, we introduce VIBE, the Visual Instruction Benchmark for Image Editing with a three-level interaction hierarchy that captures deictic grounding, morphological manipulation, and causal reasoning. Across these levels, we curate high-quality and diverse test cases that reflect progressively increasing complexity in visual instruction following. We further propose a robust LMM-as-a-judge evaluation framework with task-specific metrics to enable scalable and fine-grained assessment. Through a comprehensive evaluation of 17 representative open-source and proprietary image editing models, we find that proprietary models exhibit early-stage visual instruction-following capabilities and consistently outperform open-source models. However, performance degrades markedly with increasing task difficulty even for the strongest systems, highlighting promising directions for future research.
PDF162February 7, 2026