LVLM-Interpret: Ein Interpretierbarkeitswerkzeug für große Seh-Sprach-Modelle
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models
April 3, 2024
Autoren: Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal
cs.AI
Zusammenfassung
In der sich schnell entwickelnden Landschaft der künstlichen Intelligenz tauchen multimodale große Sprachmodelle als ein bedeutender Forschungsbereich auf. Diese Modelle, die verschiedene Arten von Dateneingaben kombinieren, werden zunehmend beliebter. Dennoch bleibt das Verständnis ihrer internen Mechanismen eine komplexe Aufgabe. Es wurden zahlreiche Fortschritte auf dem Gebiet der Erklärbarkeitstools und Mechanismen erzielt, dennoch gibt es noch viel zu erforschen. In dieser Arbeit stellen wir eine neuartige interaktive Anwendung vor, die darauf abzielt, die internen Mechanismen großer Bild-Sprach-Modelle zu verstehen. Unsere Benutzeroberfläche ist darauf ausgelegt, die Interpretierbarkeit der Bildausschnitte zu verbessern, die entscheidend für die Generierung einer Antwort sind, und die Wirksamkeit des Sprachmodells bei der Verankerung seiner Ausgabe im Bild zu bewerten. Mit unserer Anwendung kann ein Benutzer das Modell systematisch untersuchen und Systemgrenzen aufdecken, um Verbesserungen der Systemfähigkeiten zu ermöglichen. Abschließend präsentieren wir eine Fallstudie darüber, wie unsere Anwendung dazu beitragen kann, Fehlermechanismen in einem beliebten großen multimodalen Modell zu verstehen: LLaVA.
English
In the rapidly evolving landscape of artificial intelligence, multi-modal
large language models are emerging as a significant area of interest. These
models, which combine various forms of data input, are becoming increasingly
popular. However, understanding their internal mechanisms remains a complex
task. Numerous advancements have been made in the field of explainability tools
and mechanisms, yet there is still much to explore. In this work, we present a
novel interactive application aimed towards understanding the internal
mechanisms of large vision-language models. Our interface is designed to
enhance the interpretability of the image patches, which are instrumental in
generating an answer, and assess the efficacy of the language model in
grounding its output in the image. With our application, a user can
systematically investigate the model and uncover system limitations, paving the
way for enhancements in system capabilities. Finally, we present a case study
of how our application can aid in understanding failure mechanisms in a popular
large multi-modal model: LLaVA.Summary
AI-Generated Summary