ConTextual: Avaliando o Raciocínio Visual Sensível ao Contexto em Textos Ricos em Modelos Multimodais de Grande Escala
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
Autores: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
Resumo
Os recentes avanços em IA levaram ao desenvolvimento de grandes modelos multimodais (LMMs, do inglês *Large Multimodal Models*) capazes de processar tarefas complexas que envolvem raciocínio conjunto sobre texto e conteúdo visual em imagens (por exemplo, navegar em mapas em locais públicos). Este artigo apresenta o ConTextual, um novo benchmark composto por instruções projetadas explicitamente para avaliar a capacidade dos LMMs de realizar raciocínio visual rico em texto e sensível ao contexto. O ConTextual enfatiza cenários diversos do mundo real (por exemplo, leitura de horários, navegação, compras e mais) que exigem uma compreensão mais profunda das interações entre elementos textuais e visuais. Nossos resultados revelam uma lacuna significativa de desempenho de 30,8% entre o melhor LMM, o GPT-4V(ision), e as capacidades humanas, conforme avaliado por humanos, indicando um espaço considerável para melhorias no raciocínio visual rico em texto e sensível ao contexto. Notavelmente, embora o GPT-4V tenha se destacado em categorias abstratas, como interpretação de memes e citações, seu desempenho geral ainda ficou aquém do humano. Além das avaliações humanas, também empregamos métricas de avaliação automática usando o GPT-4, revelando tendências semelhantes nas disparidades de desempenho. Também realizamos uma avaliação detalhada em diversos contextos visuais e fornecemos uma análise qualitativa que oferece uma estrutura robusta para futuros avanços no design de LMMs.
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/