ChatPaper.aiChatPaper

LiveVQA: Live Visuele Kenniszoektocht

LiveVQA: Live Visual Knowledge Seeking

April 7, 2025
Auteurs: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI

Samenvatting

We introduceren LiveVQA, een automatisch verzamelde dataset van de meest recente visuele kennis van het internet met gesynthetiseerde VQA-problemen. LiveVQA bestaat uit 3.602 enkelvoudige en meervoudige visuele vragen van 6 nieuwswebsites in 14 nieuwscategorieën, met een hoge kwaliteit van beeld-tekst coherentie en authentieke informatie. Onze evaluatie over 15 MLLM's (bijvoorbeeld GPT-4o, Gemma-3 en de Qwen-2.5-VL-familie) toont aan dat sterkere modellen over het algemeen beter presteren, waarbij geavanceerde visuele redeneervaardigheden cruciaal blijken voor complexe meervoudige vragen. Ondanks uitstekende prestaties op tekstuele problemen, laten modellen met tools zoals zoekmachines nog steeds aanzienlijke tekortkomingen zien bij het beantwoorden van visuele vragen die de meest recente visuele kennis vereisen, wat belangrijke onderzoeksgebieden voor de toekomst benadrukt.
English
We introduce LiveVQA, an automatically collected dataset of latest visual knowledge from the Internet with synthesized VQA problems. LiveVQA consists of 3,602 single- and multi-hop visual questions from 6 news websites across 14 news categories, featuring high-quality image-text coherence and authentic information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and Qwen-2.5-VL family) demonstrates that stronger models perform better overall, with advanced visual reasoning capabilities proving crucial for complex multi-hop questions. Despite excellent performance on textual problems, models with tools like search engines still show significant gaps when addressing visual questions requiring latest visual knowledge, highlighting important areas for future research.

Summary

AI-Generated Summary

PDF144April 8, 2025