ChatPaper.aiChatPaper

ConTextual: Avaliando o Raciocínio Visual Sensível ao Contexto em Textos Ricos em Modelos Multimodais de Grande Escala

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

January 24, 2024
Autores: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI

Resumo

Os recentes avanços em IA levaram ao desenvolvimento de grandes modelos multimodais (LMMs, do inglês *Large Multimodal Models*) capazes de processar tarefas complexas que envolvem raciocínio conjunto sobre texto e conteúdo visual em imagens (por exemplo, navegar em mapas em locais públicos). Este artigo apresenta o ConTextual, um novo benchmark composto por instruções projetadas explicitamente para avaliar a capacidade dos LMMs de realizar raciocínio visual rico em texto e sensível ao contexto. O ConTextual enfatiza cenários diversos do mundo real (por exemplo, leitura de horários, navegação, compras e mais) que exigem uma compreensão mais profunda das interações entre elementos textuais e visuais. Nossos resultados revelam uma lacuna significativa de desempenho de 30,8% entre o melhor LMM, o GPT-4V(ision), e as capacidades humanas, conforme avaliado por humanos, indicando um espaço considerável para melhorias no raciocínio visual rico em texto e sensível ao contexto. Notavelmente, embora o GPT-4V tenha se destacado em categorias abstratas, como interpretação de memes e citações, seu desempenho geral ainda ficou aquém do humano. Além das avaliações humanas, também empregamos métricas de avaliação automática usando o GPT-4, revelando tendências semelhantes nas disparidades de desempenho. Também realizamos uma avaliação detalhada em diversos contextos visuais e fornecemos uma análise qualitativa que oferece uma estrutura robusta para futuros avanços no design de LMMs. https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal models (LMMs) capable of processing complex tasks involving joint reasoning over text and visual content in the image (e.g., navigating maps in public places). This paper introduces ConTextual, a novel benchmark comprising instructions designed explicitly to evaluate LMMs' ability to perform context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse real-world scenarios (e.g., time-reading, navigation, shopping and more) demanding a deeper understanding of the interactions between textual and visual elements. Our findings reveal a significant performance gap of 30.8% between the best-performing LMM, GPT-4V(ision), and human capabilities using human evaluation indicating substantial room for improvement in context-sensitive text-rich visual reasoning. Notably, while GPT-4V excelled in abstract categories like meme and quote interpretation, its overall performance still lagged behind humans. In addition to human evaluations, we also employed automatic evaluation metrics using GPT-4, uncovering similar trends in performance disparities. We also perform a fine-grained evaluation across diverse visual contexts and provide qualitative analysis which provides a robust framework for future advancements in the LMM design. https://con-textual.github.io/
PDF121December 15, 2024