ChatPaper.aiChatPaper

LiveVQA: 실시간 시각적 지식 탐색

LiveVQA: Live Visual Knowledge Seeking

April 7, 2025
저자: Mingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen
cs.AI

초록

최신 시각적 지식을 인터넷에서 자동으로 수집하고 합성된 VQA 문제로 구성된 LiveVQA 데이터셋을 소개합니다. LiveVQA는 14개 뉴스 카테고리에서 6개 뉴스 웹사이트를 통해 수집된 3,602개의 단일 및 다중 홉 시각적 질문으로 구성되어 있으며, 높은 품질의 이미지-텍스트 일관성과 신뢰할 수 있는 정보를 특징으로 합니다. GPT-4o, Gemma-3, Qwen-2.5-VL 패밀리 등 15개의 MLLM을 대상으로 한 평가 결과, 더 강력한 모델들이 전반적으로 더 나은 성능을 보였으며, 특히 복잡한 다중 홉 질문에서는 고급 시각적 추론 능력이 중요한 것으로 나타났습니다. 텍스트 문제에서는 우수한 성능을 보이는 모델들도 검색 엔진과 같은 도구를 사용할 때 최신 시각적 지식을 요구하는 시각적 질문을 해결하는 데 있어 상당한 격차를 보였으며, 이는 향후 연구를 위한 중요한 영역을 강조합니다.
English
We introduce LiveVQA, an automatically collected dataset of latest visual knowledge from the Internet with synthesized VQA problems. LiveVQA consists of 3,602 single- and multi-hop visual questions from 6 news websites across 14 news categories, featuring high-quality image-text coherence and authentic information. Our evaluation across 15 MLLMs (e.g., GPT-4o, Gemma-3, and Qwen-2.5-VL family) demonstrates that stronger models perform better overall, with advanced visual reasoning capabilities proving crucial for complex multi-hop questions. Despite excellent performance on textual problems, models with tools like search engines still show significant gaps when addressing visual questions requiring latest visual knowledge, highlighting important areas for future research.

Summary

AI-Generated Summary

PDF144April 8, 2025