ChatPaper.aiChatPaper

LiveVQA: Интерактивный поиск визуальных знаний

LiveVQA: Live Visual Knowledge Seeking

April 7, 2025
Авторы: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI

Аннотация

Мы представляем LiveVQA — автоматически собранный набор данных, содержащий актуальные визуальные знания из Интернета с синтезированными задачами визуального вопроса-ответа (VQA). LiveVQA включает 3 602 одношаговых и многошаговых визуальных вопроса с 6 новостных сайтов, охватывающих 14 категорий новостей, и отличается высокой согласованностью изображений и текста, а также достоверностью информации. Наша оценка на 15 мультимодальных языковых моделях (MLLM), таких как GPT-4o, Gemma-3 и семейство Qwen-2.5-VL, показывает, что более мощные модели в целом справляются лучше, при этом продвинутые способности к визуальному рассуждению оказываются критически важными для сложных многошаговых вопросов. Несмотря на отличные результаты в текстовых задачах, модели с инструментами, такими как поисковые системы, всё ещё демонстрируют значительные пробелы при решении визуальных вопросов, требующих актуальных визуальных знаний, что указывает на важные направления для будущих исследований.
English
We introduce LiveVQA, an automatically collected dataset of latest visual knowledge from the Internet with synthesized VQA problems. LiveVQA consists of 3,602 single- and multi-hop visual questions from 6 news websites across 14 news categories, featuring high-quality image-text coherence and authentic information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and Qwen-2.5-VL family) demonstrates that stronger models perform better overall, with advanced visual reasoning capabilities proving crucial for complex multi-hop questions. Despite excellent performance on textual problems, models with tools like search engines still show significant gaps when addressing visual questions requiring latest visual knowledge, highlighting important areas for future research.

Summary

AI-Generated Summary

PDF144April 8, 2025