ChatPaper.aiChatPaper

WildVision: Evaluación de Modelos de Visión-Lenguaje en Entornos Reales con Preferencias Humanas

WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences

June 16, 2024
Autores: Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin
cs.AI

Resumen

Los recientes avances en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) destacan la necesidad de evaluar las preferencias humanas en interacciones multimodales del mundo real. Para abordar esta brecha, lanzamos WildVision-Arena (WV-Arena), una plataforma en línea que recopila preferencias humanas para evaluar VLMs. Curatoriamos WV-Bench seleccionando 500 muestras de alta calidad entre 8,000 envíos de usuarios en WV-Arena. WV-Bench utiliza GPT-4 como juez para comparar cada VLM con Claude-3-Sonnet, logrando una correlación de Spearman de 0.94 con el Elo de WV-Arena. Esto supera significativamente otros puntos de referencia como MMVet, MMMU y MMStar. Nuestro análisis exhaustivo de 20,000 interacciones del mundo real revela insights importantes sobre los casos de falla de los VLMs más destacados. Por ejemplo, encontramos que, aunque GPT-4V supera a muchos otros modelos como Reka-Flash, Opus y Yi-VL-Plus en tareas simples de reconocimiento visual y razonamiento, aún enfrenta desafíos con señales contextuales sutiles, razonamiento espacial, imaginación visual y conocimiento de dominio experto. Además, los VLMs actuales presentan problemas con alucinaciones y seguridad cuando son provocados intencionalmente. Estamos liberando nuestros datos de chat y retroalimentación para impulsar aún más la investigación en el campo de los VLMs.
English
Recent breakthroughs in vision-language models (VLMs) emphasize the necessity of benchmarking human preferences in real-world multimodal interactions. To address this gap, we launched WildVision-Arena (WV-Arena), an online platform that collects human preferences to evaluate VLMs. We curated WV-Bench by selecting 500 high-quality samples from 8,000 user submissions in WV-Arena. WV-Bench uses GPT-4 as the judge to compare each VLM with Claude-3-Sonnet, achieving a Spearman correlation of 0.94 with the WV-Arena Elo. This significantly outperforms other benchmarks like MMVet, MMMU, and MMStar. Our comprehensive analysis of 20K real-world interactions reveals important insights into the failure cases of top-performing VLMs. For example, we find that although GPT-4V surpasses many other models like Reka-Flash, Opus, and Yi-VL-Plus in simple visual recognition and reasoning tasks, it still faces challenges with subtle contextual cues, spatial reasoning, visual imagination, and expert domain knowledge. Additionally, current VLMs exhibit issues with hallucinations and safety when intentionally provoked. We are releasing our chat and feedback data to further advance research in the field of VLMs.

Summary

AI-Generated Summary

PDF144December 6, 2024