LVLM-Intrepret: Инструмент интерпретации для крупных моделей видео-язык
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models
April 3, 2024
Авторы: Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal
cs.AI
Аннотация
В быстро развивающемся мире искусственного интеллекта мульти-модальные крупные языковые модели становятся значительной областью интереса. Эти модели, объединяющие различные формы входных данных, становятся все более популярными. Однако понимание их внутренних механизмов остается сложной задачей. В области инструментов и механизмов объяснимости были сделаны многочисленные усовершенствования, однако еще многое предстоит исследовать. В данной работе мы представляем новое интерактивное приложение, направленное на понимание внутренних механизмов крупных моделей видео-языка. Наш интерфейс разработан для повышения интерпретируемости фрагментов изображения, которые являются ключевыми для генерации ответа, и оценки эффективности языковой модели в привязке ее вывода к изображению. С помощью нашего приложения пользователь может систематически исследовать модель и выявить ограничения системы, что открывает путь к улучшению возможностей системы. Наконец, мы представляем кейс-исследование того, как наше приложение может помочь в понимании механизмов сбоя в популярной крупной мульти-модальной модели: LLaVA.
English
In the rapidly evolving landscape of artificial intelligence, multi-modal
large language models are emerging as a significant area of interest. These
models, which combine various forms of data input, are becoming increasingly
popular. However, understanding their internal mechanisms remains a complex
task. Numerous advancements have been made in the field of explainability tools
and mechanisms, yet there is still much to explore. In this work, we present a
novel interactive application aimed towards understanding the internal
mechanisms of large vision-language models. Our interface is designed to
enhance the interpretability of the image patches, which are instrumental in
generating an answer, and assess the efficacy of the language model in
grounding its output in the image. With our application, a user can
systematically investigate the model and uncover system limitations, paving the
way for enhancements in system capabilities. Finally, we present a case study
of how our application can aid in understanding failure mechanisms in a popular
large multi-modal model: LLaVA.Summary
AI-Generated Summary