LiveVQA: Búsqueda Visual de Conocimiento en Tiempo Real
LiveVQA: Live Visual Knowledge Seeking
April 7, 2025
Autores: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI
Resumen
Presentamos LiveVQA, un conjunto de datos recopilado automáticamente que contiene conocimiento visual actualizado de Internet con problemas de VQA sintetizados. LiveVQA consta de 3,602 preguntas visuales de uno o múltiples saltos, obtenidas de 6 sitios web de noticias en 14 categorías temáticas, destacándose por su alta coherencia imagen-texto e información auténtica. Nuestra evaluación en 15 MLLMs (por ejemplo, GPT-4o, Gemma-3 y la familia Qwen-2.5-VL) demuestra que los modelos más potentes tienen un mejor rendimiento general, siendo cruciales las capacidades avanzadas de razonamiento visual para preguntas complejas de múltiples saltos. A pesar del excelente desempeño en problemas textuales, los modelos con herramientas como motores de búsqueda aún muestran brechas significativas al abordar preguntas visuales que requieren conocimiento visual actualizado, lo que subraya áreas importantes para futuras investigaciones.
English
We introduce LiveVQA, an automatically collected dataset of latest visual
knowledge from the Internet with synthesized VQA problems. LiveVQA consists of
3,602 single- and multi-hop visual questions from 6 news websites across 14
news categories, featuring high-quality image-text coherence and authentic
information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and
Qwen-2.5-VL family) demonstrates that stronger models perform better overall,
with advanced visual reasoning capabilities proving crucial for complex
multi-hop questions. Despite excellent performance on textual problems, models
with tools like search engines still show significant gaps when addressing
visual questions requiring latest visual knowledge, highlighting important
areas for future research.Summary
AI-Generated Summary