LVLM-Intrepret: 大規模視覚言語モデルのための解釈可能性ツール
LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models
April 3, 2024
著者: Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal
cs.AI
要旨
人工知能の急速に進化する領域において、マルチモーダル大規模言語モデルが重要な関心領域として浮上しています。これらのモデルは、さまざまな形式のデータ入力を組み合わせており、ますます人気を集めています。しかし、その内部メカニズムを理解することは依然として複雑な課題です。説明可能性ツールやメカニズムの分野では多くの進展がありましたが、まだ探求すべき点が多く残されています。本研究では、大規模視覚言語モデルの内部メカニズムを理解するための新しいインタラクティブアプリケーションを提案します。私たちのインターフェースは、回答生成に重要な役割を果たす画像パッチの解釈可能性を向上させ、言語モデルがその出力を画像に基づかせる効率性を評価するように設計されています。このアプリケーションを使用することで、ユーザーはモデルを体系的に調査し、システムの限界を明らかにすることができ、システム能力の向上への道を開くことができます。最後に、私たちのアプリケーションが、人気のある大規模マルチモーダルモデルであるLLaVAの失敗メカニズムを理解するのにどのように役立つかを示すケーススタディを提示します。
English
In the rapidly evolving landscape of artificial intelligence, multi-modal
large language models are emerging as a significant area of interest. These
models, which combine various forms of data input, are becoming increasingly
popular. However, understanding their internal mechanisms remains a complex
task. Numerous advancements have been made in the field of explainability tools
and mechanisms, yet there is still much to explore. In this work, we present a
novel interactive application aimed towards understanding the internal
mechanisms of large vision-language models. Our interface is designed to
enhance the interpretability of the image patches, which are instrumental in
generating an answer, and assess the efficacy of the language model in
grounding its output in the image. With our application, a user can
systematically investigate the model and uncover system limitations, paving the
way for enhancements in system capabilities. Finally, we present a case study
of how our application can aid in understanding failure mechanisms in a popular
large multi-modal model: LLaVA.Summary
AI-Generated Summary