LiveVQA: ライブ視覚的知識探索
LiveVQA: Live Visual Knowledge Seeking
April 7, 2025
著者: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI
要旨
私たちは、インターネットから最新の視覚的知識を自動的に収集し、合成されたVQA(Visual Question Answering)問題を組み込んだデータセット「LiveVQA」を紹介します。LiveVQAは、14のニュースカテゴリーにわたる6つのニュースウェブサイトから収集された3,602のシングルホップおよびマルチホップ視覚質問で構成されており、高品質な画像とテキストの一貫性と信頼性のある情報を特徴としています。15のMLLM(例:GPT-4o、Gemma-3、Qwen-2.5-VLファミリー)にわたる評価では、より強力なモデルが全体的に優れたパフォーマンスを示し、高度な視覚推論能力が複雑なマルチホップ質問において重要であることが明らかになりました。テキスト問題での優れたパフォーマンスにもかかわらず、検索エンジンなどのツールを備えたモデルでも、最新の視覚的知識を必要とする視覚質問に対処する際に大きなギャップが存在し、今後の研究における重要な領域が浮き彫りになりました。
English
We introduce LiveVQA, an automatically collected dataset of latest visual
knowledge from the Internet with synthesized VQA problems. LiveVQA consists of
3,602 single- and multi-hop visual questions from 6 news websites across 14
news categories, featuring high-quality image-text coherence and authentic
information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and
Qwen-2.5-VL family) demonstrates that stronger models perform better overall,
with advanced visual reasoning capabilities proving crucial for complex
multi-hop questions. Despite excellent performance on textual problems, models
with tools like search engines still show significant gaps when addressing
visual questions requiring latest visual knowledge, highlighting important
areas for future research.Summary
AI-Generated Summary