ChatPaper.aiChatPaper

LVLM-Intrepret: 대규모 시각-언어 모델을 위한 해석 가능성 도구

LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models

April 3, 2024
저자: Gabriela Ben Melech Stan, Raanan Yehezkel Rohekar, Yaniv Gurwicz, Matthew Lyle Olson, Anahita Bhiwandiwalla, Estelle Aflalo, Chenfei Wu, Nan Duan, Shao-Yen Tseng, Vasudev Lal
cs.AI

초록

급변하는 인공지능 분야에서, 다중 모달 대형 언어 모델은 중요한 관심 영역으로 부상하고 있습니다. 다양한 형태의 데이터 입력을 결합하는 이러한 모델은 점점 더 인기를 얻고 있지만, 그 내부 메커니즘을 이해하는 것은 여전히 복잡한 과제로 남아 있습니다. 설명 가능성 도구 및 메커니즘 분야에서는 많은 발전이 있었지만, 여전히 탐구할 부분이 많습니다. 본 연구에서는 대형 시각-언어 모델의 내부 메커니즘을 이해하기 위한 새로운 인터랙티브 애플리케이션을 소개합니다. 우리의 인터페이스는 답변 생성에 중요한 역할을 하는 이미지 패치의 해석 가능성을 높이고, 언어 모델이 출력을 이미지에 기반하게 하는 효율성을 평가하도록 설계되었습니다. 이 애플리케이션을 통해 사용자는 모델을 체계적으로 조사하고 시스템의 한계를 발견함으로써 시스템 능력 향상의 길을 열 수 있습니다. 마지막으로, 우리는 인기 있는 대형 다중 모달 모델인 LLaVA의 실패 메커니즘을 이해하는 데 이 애플리케이션이 어떻게 도움을 줄 수 있는지에 대한 사례 연구를 제시합니다.
English
In the rapidly evolving landscape of artificial intelligence, multi-modal large language models are emerging as a significant area of interest. These models, which combine various forms of data input, are becoming increasingly popular. However, understanding their internal mechanisms remains a complex task. Numerous advancements have been made in the field of explainability tools and mechanisms, yet there is still much to explore. In this work, we present a novel interactive application aimed towards understanding the internal mechanisms of large vision-language models. Our interface is designed to enhance the interpretability of the image patches, which are instrumental in generating an answer, and assess the efficacy of the language model in grounding its output in the image. With our application, a user can systematically investigate the model and uncover system limitations, paving the way for enhancements in system capabilities. Finally, we present a case study of how our application can aid in understanding failure mechanisms in a popular large multi-modal model: LLaVA.

Summary

AI-Generated Summary

PDF271December 15, 2024