ChatPaper.aiChatPaper

LVLM-Intrepret: Uma Ferramenta de Interpretabilidade para Modelos de Grande Escala de Visão e Linguagem

LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

April 3, 2024
Autores: Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal
cs.AI

Resumo

No cenário em rápida evolução da inteligência artificial, os modelos de linguagem multimodal de grande escala estão emergindo como uma área de significativo interesse. Esses modelos, que combinam diversas formas de entrada de dados, estão se tornando cada vez mais populares. No entanto, compreender seus mecanismos internos continua sendo uma tarefa complexa. Numerosos avanços foram feitos no campo de ferramentas e mecanismos de explicabilidade, mas ainda há muito a ser explorado. Neste trabalho, apresentamos uma nova aplicação interativa voltada para a compreensão dos mecanismos internos de grandes modelos de visão e linguagem. Nossa interface foi projetada para aprimorar a interpretabilidade dos patches de imagem, que são fundamentais para gerar uma resposta, e avaliar a eficácia do modelo de linguagem em fundamentar sua saída na imagem. Com nossa aplicação, um usuário pode investigar sistematicamente o modelo e descobrir limitações do sistema, abrindo caminho para melhorias nas capacidades do sistema. Por fim, apresentamos um estudo de caso de como nossa aplicação pode auxiliar na compreensão dos mecanismos de falha em um popular modelo multimodal de grande escala: o LLaVA.
English
In the rapidly evolving landscape of artificial intelligence, multi-modal large language models are emerging as a significant area of interest. These models, which combine various forms of data input, are becoming increasingly popular. However, understanding their internal mechanisms remains a complex task. Numerous advancements have been made in the field of explainability tools and mechanisms, yet there is still much to explore. In this work, we present a novel interactive application aimed towards understanding the internal mechanisms of large vision-language models. Our interface is designed to enhance the interpretability of the image patches, which are instrumental in generating an answer, and assess the efficacy of the language model in grounding its output in the image. With our application, a user can systematically investigate the model and uncover system limitations, paving the way for enhancements in system capabilities. Finally, we present a case study of how our application can aid in understanding failure mechanisms in a popular large multi-modal model: LLaVA.
PDF261December 15, 2024