ChatPaper.aiChatPaper

Grote multimodale modellen kunnen kenmerken interpreteren in grote multimodale modellen.

Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

November 22, 2024
Auteurs: Kaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu
cs.AI

Samenvatting

Recente ontwikkelingen in Grote Multimodale Modellen (GMM's) hebben geleid tot significante doorbraken zowel in de academische wereld als in de industrie. Een vraag die rijst, is hoe wij, als mensen, hun interne neurale representaties kunnen begrijpen. Dit artikel zet een eerste stap om deze vraag aan te pakken door een veelzijdig kader te presenteren om de semantiek binnen GMM's te identificeren en interpreteren. Specifiek, 1) passen we eerst een Schaarse Auto-encoder (SAE) toe om de representaties te ontwarren in voor mensen begrijpelijke kenmerken. 2) Vervolgens presenteren we een automatisch interpretatiekader om de open-semantische kenmerken geïnterpreteerd door de GMM's zelf in SAE te interpreteren. We gebruiken dit kader om het LLaVA-NeXT-8B model te analyseren met behulp van het LLaVA-OV-72B model, waarbij we aantonen dat deze kenmerken effectief het gedrag van het model kunnen sturen. Onze resultaten dragen bij aan een dieper begrip van waarom GMM's uitblinken in specifieke taken, waaronder EQ-tests, en verlichten de aard van hun fouten samen met potentiële strategieën voor hun correctie. Deze bevindingen bieden nieuwe inzichten in de interne mechanismen van GMM's en suggereren parallellen met de cognitieve processen van de menselijke hersenen.
English
Recent advances in Large Multimodal Models (LMMs) lead to significant breakthroughs in both academia and industry. One question that arises is how we, as humans, can understand their internal neural representations. This paper takes an initial step towards addressing this question by presenting a versatile framework to identify and interpret the semantics within LMMs. Specifically, 1) we first apply a Sparse Autoencoder(SAE) to disentangle the representations into human understandable features. 2) We then present an automatic interpretation framework to interpreted the open-semantic features learned in SAE by the LMMs themselves. We employ this framework to analyze the LLaVA-NeXT-8B model using the LLaVA-OV-72B model, demonstrating that these features can effectively steer the model's behavior. Our results contribute to a deeper understanding of why LMMs excel in specific tasks, including EQ tests, and illuminate the nature of their mistakes along with potential strategies for their rectification. These findings offer new insights into the internal mechanisms of LMMs and suggest parallels with the cognitive processes of the human brain.

Summary

AI-Generated Summary

PDF174November 25, 2024