LiveVQA: Live Visual Knowledge Seeking (LiveVQA: Live Visuelle Wissenssuche)
LiveVQA: Live Visual Knowledge Seeking
April 7, 2025
Autoren: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI
Zusammenfassung
Wir stellen LiveVQA vor, einen automatisch erstellten Datensatz mit aktuellen visuellen Informationen aus dem Internet und synthetisierten VQA-Problemen. LiveVQA besteht aus 3.602 ein- und mehrschrittigen visuellen Fragen von 6 Nachrichtenwebsites aus 14 Nachrichtenkategorien, die sich durch eine hohe Bild-Text-Kohärenz und authentische Informationen auszeichnen. Unsere Evaluierung über 15 MLLMs (z. B. GPT-4o, Gemma-3 und die Qwen-2.5-VL-Familie) zeigt, dass stärkere Modelle insgesamt besser abschneiden, wobei fortgeschrittene visuelle Fähigkeiten entscheidend für komplexe mehrschrittige Fragen sind. Trotz hervorragender Leistung bei textbasierten Problemen zeigen Modelle mit Werkzeugen wie Suchmaschinen weiterhin erhebliche Lücken bei der Bearbeitung visueller Fragen, die aktuelle visuelle Kenntnisse erfordern, was wichtige Bereiche für zukünftige Forschung aufzeigt.
English
We introduce LiveVQA, an automatically collected dataset of latest visual
knowledge from the Internet with synthesized VQA problems. LiveVQA consists of
3,602 single- and multi-hop visual questions from 6 news websites across 14
news categories, featuring high-quality image-text coherence and authentic
information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and
Qwen-2.5-VL family) demonstrates that stronger models perform better overall,
with advanced visual reasoning capabilities proving crucial for complex
multi-hop questions. Despite excellent performance on textual problems, models
with tools like search engines still show significant gaps when addressing
visual questions requiring latest visual knowledge, highlighting important
areas for future research.Summary
AI-Generated Summary