LVLM-Intrepret: Een Interpretatietool voor Grote Visueel-Taalmodellen
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models
April 3, 2024
Auteurs: Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal
cs.AI
Samenvatting
In het snel evoluerende landschap van kunstmatige intelligentie ontstaan multimodale grote taalmodellen als een belangrijk interessegebied. Deze modellen, die verschillende vormen van datainvoer combineren, worden steeds populairder. Het begrijpen van hun interne mechanismen blijft echter een complexe taak. Er zijn tal van vooruitgangen geboekt op het gebied van uitlegbare tools en mechanismen, maar er valt nog veel te ontdekken. In dit werk presenteren we een nieuwe interactieve applicatie die gericht is op het begrijpen van de interne mechanismen van grote visie-taalmodellen. Onze interface is ontworpen om de interpreteerbaarheid van beeldpatches te verbeteren, die essentieel zijn voor het genereren van een antwoord, en om de effectiviteit van het taalmodel te beoordelen bij het verankeren van zijn uitvoer in het beeld. Met onze applicatie kan een gebruiker het model systematisch onderzoeken en systeembeperkingen blootleggen, wat de weg vrijmaakt voor verbeteringen in de systeemcapaciteiten. Tot slot presenteren we een casestudy van hoe onze applicatie kan helpen bij het begrijpen van faalmechanismen in een populair groot multimodaal model: LLaVA.
English
In the rapidly evolving landscape of artificial intelligence, multi-modal
large language models are emerging as a significant area of interest. These
models, which combine various forms of data input, are becoming increasingly
popular. However, understanding their internal mechanisms remains a complex
task. Numerous advancements have been made in the field of explainability tools
and mechanisms, yet there is still much to explore. In this work, we present a
novel interactive application aimed towards understanding the internal
mechanisms of large vision-language models. Our interface is designed to
enhance the interpretability of the image patches, which are instrumental in
generating an answer, and assess the efficacy of the language model in
grounding its output in the image. With our application, a user can
systematically investigate the model and uncover system limitations, paving the
way for enhancements in system capabilities. Finally, we present a case study
of how our application can aid in understanding failure mechanisms in a popular
large multi-modal model: LLaVA.