LiveVQA : Recherche visuelle de connaissances en temps réel
LiveVQA: Live Visual Knowledge Seeking
April 7, 2025
Auteurs: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI
Résumé
Nous présentons LiveVQA, un ensemble de données collecté automatiquement contenant les dernières connaissances visuelles provenant d'Internet, accompagné de problèmes de VQA synthétisés. LiveVQA comprend 3 602 questions visuelles à un ou plusieurs sauts, issues de 6 sites d'actualités couvrant 14 catégories de nouvelles, et se distingue par une cohérence image-texte de haute qualité et des informations authentiques. Notre évaluation sur 15 MLLMs (par exemple, GPT-4o, Gemma-3 et la famille Qwen-2.5-VL) montre que les modèles plus performants obtiennent de meilleurs résultats globaux, avec des capacités de raisonnement visuel avancées qui s'avèrent cruciales pour les questions complexes à plusieurs sauts. Malgré des performances excellentes sur les problèmes textuels, les modèles équipés d'outils comme les moteurs de recherche présentent encore des lacunes significatives lorsqu'il s'agit de répondre à des questions visuelles nécessitant les dernières connaissances visuelles, soulignant ainsi des domaines importants pour la recherche future.
English
We introduce LiveVQA, an automatically collected dataset of latest visual
knowledge from the Internet with synthesized VQA problems. LiveVQA consists of
3,602 single- and multi-hop visual questions from 6 news websites across 14
news categories, featuring high-quality image-text coherence and authentic
information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and
Qwen-2.5-VL family) demonstrates that stronger models perform better overall,
with advanced visual reasoning capabilities proving crucial for complex
multi-hop questions. Despite excellent performance on textual problems, models
with tools like search engines still show significant gaps when addressing
visual questions requiring latest visual knowledge, highlighting important
areas for future research.Summary
AI-Generated Summary