LVLM-Intrepret: Una Herramienta de Interpretabilidad para Modelos Grandes de Visión y Lenguaje
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models
April 3, 2024
Autores: Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal
cs.AI
Resumen
En el panorama en rápida evolución de la inteligencia artificial, los modelos de lenguaje multimodal de gran escala están surgiendo como un área de interés significativa. Estos modelos, que combinan diversas formas de entrada de datos, están ganando cada vez más popularidad. Sin embargo, comprender sus mecanismos internos sigue siendo una tarea compleja. Se han logrado numerosos avances en el campo de las herramientas y mecanismos de explicabilidad, pero aún queda mucho por explorar. En este trabajo, presentamos una aplicación interactiva novedosa destinada a comprender los mecanismos internos de los modelos de visión y lenguaje de gran escala. Nuestra interfaz está diseñada para mejorar la interpretabilidad de los fragmentos de imagen, que son fundamentales para generar una respuesta, y evaluar la eficacia del modelo de lenguaje al fundamentar su salida en la imagen. Con nuestra aplicación, un usuario puede investigar sistemáticamente el modelo y descubrir limitaciones del sistema, allanando el camino para mejoras en las capacidades del sistema. Finalmente, presentamos un estudio de caso sobre cómo nuestra aplicación puede ayudar a comprender los mecanismos de falla en un modelo multimodal popular de gran escala: LLaVA.
English
In the rapidly evolving landscape of artificial intelligence, multi-modal
large language models are emerging as a significant area of interest. These
models, which combine various forms of data input, are becoming increasingly
popular. However, understanding their internal mechanisms remains a complex
task. Numerous advancements have been made in the field of explainability tools
and mechanisms, yet there is still much to explore. In this work, we present a
novel interactive application aimed towards understanding the internal
mechanisms of large vision-language models. Our interface is designed to
enhance the interpretability of the image patches, which are instrumental in
generating an answer, and assess the efficacy of the language model in
grounding its output in the image. With our application, a user can
systematically investigate the model and uncover system limitations, paving the
way for enhancements in system capabilities. Finally, we present a case study
of how our application can aid in understanding failure mechanisms in a popular
large multi-modal model: LLaVA.Summary
AI-Generated Summary