LiveVQA: Busca Visual de Conhecimento em Tempo Real
LiveVQA: Live Visual Knowledge Seeking
April 7, 2025
Autores: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI
Resumo
Apresentamos o LiveVQA, um conjunto de dados coletado automaticamente com o conhecimento visual mais recente da Internet, acompanhado de problemas de VQA sintetizados. O LiveVQA consiste em 3.602 questões visuais de salto único e múltiplos, extraídas de 6 sites de notícias abrangendo 14 categorias, caracterizadas por uma alta coerência entre imagem e texto e informações autênticas. Nossa avaliação em 15 MLLMs (por exemplo, GPT-4o, Gemma-3 e a família Qwen-2.5-VL) demonstra que modelos mais robustos apresentam um desempenho geral superior, com capacidades avançadas de raciocínio visual sendo cruciais para questões complexas de múltiplos saltos. Apesar do excelente desempenho em problemas textuais, modelos equipados com ferramentas como motores de busca ainda mostram lacunas significativas ao lidar com questões visuais que exigem conhecimento visual atualizado, destacando áreas importantes para pesquisas futuras.
English
We introduce LiveVQA, an automatically collected dataset of latest visual
knowledge from the Internet with synthesized VQA problems. LiveVQA consists of
3,602 single- and multi-hop visual questions from 6 news websites across 14
news categories, featuring high-quality image-text coherence and authentic
information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and
Qwen-2.5-VL family) demonstrates that stronger models perform better overall,
with advanced visual reasoning capabilities proving crucial for complex
multi-hop questions. Despite excellent performance on textual problems, models
with tools like search engines still show significant gaps when addressing
visual questions requiring latest visual knowledge, highlighting important
areas for future research.Summary
AI-Generated Summary