ChatPaper.aiChatPaper

LiveVQA: Live Visual Knowledge Seeking (LiveVQA: Live Visuelle Wissenssuche)

LiveVQA: Live Visual Knowledge Seeking

April 7, 2025
Autoren: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI

Zusammenfassung

Wir stellen LiveVQA vor, einen automatisch erstellten Datensatz mit aktuellen visuellen Informationen aus dem Internet und synthetisierten VQA-Problemen. LiveVQA besteht aus 3.602 ein- und mehrschrittigen visuellen Fragen von 6 Nachrichtenwebsites aus 14 Nachrichtenkategorien, die sich durch eine hohe Bild-Text-Kohärenz und authentische Informationen auszeichnen. Unsere Evaluierung über 15 MLLMs (z. B. GPT-4o, Gemma-3 und die Qwen-2.5-VL-Familie) zeigt, dass stärkere Modelle insgesamt besser abschneiden, wobei fortgeschrittene visuelle Fähigkeiten entscheidend für komplexe mehrschrittige Fragen sind. Trotz hervorragender Leistung bei textbasierten Problemen zeigen Modelle mit Werkzeugen wie Suchmaschinen weiterhin erhebliche Lücken bei der Bearbeitung visueller Fragen, die aktuelle visuelle Kenntnisse erfordern, was wichtige Bereiche für zukünftige Forschung aufzeigt.
English
We introduce LiveVQA, an automatically collected dataset of latest visual knowledge from the Internet with synthesized VQA problems. LiveVQA consists of 3,602 single- and multi-hop visual questions from 6 news websites across 14 news categories, featuring high-quality image-text coherence and authentic information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and Qwen-2.5-VL family) demonstrates that stronger models perform better overall, with advanced visual reasoning capabilities proving crucial for complex multi-hop questions. Despite excellent performance on textual problems, models with tools like search engines still show significant gaps when addressing visual questions requiring latest visual knowledge, highlighting important areas for future research.

Summary

AI-Generated Summary

PDF144April 8, 2025