ConTextual: Оценка контекстно-зависимого анализа текстово-визуальных данных в крупных мультимодальных моделях
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
Авторы: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
Аннотация
Последние достижения в области искусственного интеллекта привели к разработке крупных мультимодальных моделей (LMM), способных решать сложные задачи, требующие совместного анализа текста и визуального контента на изображениях (например, навигация по картам в общественных местах). В данной статье представлен ConTextual — новый эталонный набор инструкций, специально разработанный для оценки способности LMM выполнять контекстно-зависимое визуальное рассуждение с учетом текстовой информации. ConTextual охватывает разнообразные реальные сценарии (например, определение времени, навигация, покупки и другие), требующие глубокого понимания взаимодействия между текстовыми и визуальными элементами. Наши результаты выявили значительный разрыв в производительности в 30,8% между лучшей LMM, GPT-4V(ision), и человеческими возможностями, что указывает на существенный потенциал для улучшения в области контекстно-зависимого визуального рассуждения. Примечательно, что хотя GPT-4V показала высокие результаты в абстрактных категориях, таких как интерпретация мемов и цитат, её общая производительность всё же уступает человеческой. Помимо экспертной оценки, мы также использовали автоматические метрики оценки с помощью GPT-4, которые подтвердили схожие тенденции в различиях производительности. Мы провели детальную оценку в различных визуальных контекстах и представили качественный анализ, что создает надежную основу для будущих улучшений в проектировании LMM.
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/