ChatPaper.aiChatPaper

VLM^2-Bench: Более глубокий анализ того, насколько хорошо визуально-языковые модели неявно связывают явные визуальные соответствия

VLM^2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues

February 17, 2025
Авторы: Jianshu Zhang, Dongyu Yao, Renjie Pi, Paul Pu Liang, Yi R., Fung
cs.AI

Аннотация

Визуальное связывание совпадающих признаков — это важнейший навык в повседневной жизни, например, распознавание одного и того же человека на нескольких фотографиях на основе его признаков, даже без знания его личности. Несмотря на обширные знания, которыми обладают модели, объединяющие зрение и язык (VLMs), остается малоизученным, способны ли они выполнять эту фундаментальную задачу. Чтобы решить этот вопрос, мы представляем VLM^2-Bench — эталонный тест, предназначенный для оценки способности VLMs визуально связывать совпадающие признаки, включающий 9 подзадач и более 3000 тестовых случаев. Всесторонняя оценка восьми открытых VLMs и GPT-4o, а также дополнительный анализ различных методов подсказок на стороне языка и зрения, приводит к восьми ключевым выводам. Мы выявляем серьезные проблемы в способности моделей связывать визуальные признаки, подчеркивая значительный разрыв в производительности, где даже GPT-4o отстает от человека на 34,80%. На основе этих наблюдений мы предлагаем: (i) улучшить базовые визуальные способности для повышения адаптивности и снижения зависимости от предварительных знаний, (ii) установить более четкие принципы интеграции языкового мышления в задачи, ориентированные на зрение, чтобы избежать ненужных предубеждений, и (iii) изменить парадигмы обучения на основе зрения и текста, чтобы развивать способность моделей самостоятельно структурировать и выводить отношения между визуальными признаками.
English
Visually linking matching cues is a crucial ability in daily life, such as identifying the same person in multiple photos based on their cues, even without knowing who they are. Despite the extensive knowledge that vision-language models (VLMs) possess, it remains largely unexplored whether they are capable of performing this fundamental task. To address this, we introduce VLM^2-Bench, a benchmark designed to assess whether VLMs can Visually Link Matching cues, with 9 subtasks and over 3,000 test cases. Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with further analysis of various language-side and vision-side prompting methods, leads to a total of eight key findings. We identify critical challenges in models' ability to link visual cues, highlighting a significant performance gap where even GPT-4o lags 34.80% behind humans. Based on these insights, we advocate for (i) enhancing core visual capabilities to improve adaptability and reduce reliance on prior knowledge, (ii) establishing clearer principles for integrating language-based reasoning in vision-centric tasks to prevent unnecessary biases, and (iii) shifting vision-text training paradigms toward fostering models' ability to independently structure and infer relationships among visual cues.

Summary

AI-Generated Summary

PDF302February 24, 2025