WildVision: 인간 선호도를 기반으로 한 야생 환경에서의 비전-언어 모델 평가
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences
June 16, 2024
저자: Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin
cs.AI
초록
비전-언어 모델(VLMs) 분야의 최근 돌파구는 실세계 다중모달 상호작용에서 인간의 선호도를 벤치마킹할 필요성을 강조하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 인간의 선호도를 수집하여 VLMs를 평가하는 온라인 플랫폼인 WildVision-Arena(WV-Arena)를 출시했습니다. WV-Arena에서 8,000개의 사용자 제출물 중 500개의 고품질 샘플을 선별하여 WV-Bench를 구성했습니다. WV-Bench는 GPT-4를 판단자로 사용하여 각 VLM을 Claude-3-Sonnet과 비교하며, WV-Arena Elo와 0.94의 스피어만 상관관계를 달성했습니다. 이는 MMVet, MMMU, MMStar와 같은 다른 벤치마크를 크게 능가하는 성과입니다.
20,000건의 실세계 상호작용에 대한 포괄적인 분석을 통해 최고 성능의 VLMs의 실패 사례에 대한 중요한 통찰을 얻었습니다. 예를 들어, GPT-4V는 Reka-Flash, Opus, Yi-VL-Plus와 같은 많은 다른 모델들을 단순한 시각 인식 및 추론 작업에서 능가하지만, 미묘한 문맥적 단서, 공간 추론, 시각적 상상력, 전문 도메인 지식에서는 여전히 어려움을 겪고 있습니다. 또한, 현재의 VLMs은 의도적으로 도발할 경우 환각과 안전성 문제를 보입니다. 우리는 VLMs 분야의 연구를 더욱 발전시키기 위해 채팅 및 피드백 데이터를 공개할 예정입니다.
English
Recent breakthroughs in vision-language models (VLMs) emphasize the necessity
of benchmarking human preferences in real-world multimodal interactions. To
address this gap, we launched WildVision-Arena (WV-Arena), an online platform
that collects human preferences to evaluate VLMs. We curated WV-Bench by
selecting 500 high-quality samples from 8,000 user submissions in WV-Arena.
WV-Bench uses GPT-4 as the judge to compare each VLM with Claude-3-Sonnet,
achieving a Spearman correlation of 0.94 with the WV-Arena Elo. This
significantly outperforms other benchmarks like MMVet, MMMU, and MMStar.
Our comprehensive analysis of 20K real-world interactions reveals important
insights into the failure cases of top-performing VLMs. For example, we find
that although GPT-4V surpasses many other models like Reka-Flash, Opus, and
Yi-VL-Plus in simple visual recognition and reasoning tasks, it still faces
challenges with subtle contextual cues, spatial reasoning, visual imagination,
and expert domain knowledge. Additionally, current VLMs exhibit issues with
hallucinations and safety when intentionally provoked. We are releasing our
chat and feedback data to further advance research in the field of VLMs.Summary
AI-Generated Summary