LiveVQA: Live Visual Knowledge Seeking (LiveVQA: Live Visuelle Wissenssuche)

Zusammenfassung

Wir stellen LiveVQA vor, einen automatisch erstellten Datensatz mit aktuellen visuellen Informationen aus dem Internet und synthetisierten VQA-Problemen. LiveVQA besteht aus 3.602 ein- und mehrschrittigen visuellen Fragen von 6 Nachrichtenwebsites aus 14 Nachrichtenkategorien, die sich durch eine hohe Bild-Text-Kohärenz und authentische Informationen auszeichnen. Unsere Evaluierung über 15 MLLMs (z. B. GPT-4o, Gemma-3 und die Qwen-2.5-VL-Familie) zeigt, dass stärkere Modelle insgesamt besser abschneiden, wobei fortgeschrittene visuelle Fähigkeiten entscheidend für komplexe mehrschrittige Fragen sind. Trotz hervorragender Leistung bei textbasierten Problemen zeigen Modelle mit Werkzeugen wie Suchmaschinen weiterhin erhebliche Lücken bei der Bearbeitung visueller Fragen, die aktuelle visuelle Kenntnisse erfordern, was wichtige Bereiche für zukünftige Forschung aufzeigt.

English

We introduce LiveVQA, an automatically collected dataset of latest visual knowledge from the Internet with synthesized VQA problems. LiveVQA consists of 3,602 single- and multi-hop visual questions from 6 news websites across 14 news categories, featuring high-quality image-text coherence and authentic information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and Qwen-2.5-VL family) demonstrates that stronger models perform better overall, with advanced visual reasoning capabilities proving crucial for complex multi-hop questions. Despite excellent performance on textual problems, models with tools like search engines still show significant gaps when addressing visual questions requiring latest visual knowledge, highlighting important areas for future research.