ChatPaper.aiChatPaper

Große multimodale Modelle können Merkmale in großen multimodalen Modellen interpretieren.

Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

November 22, 2024
Autoren: Kaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte bei Large Multimodal Models (LMMs) zu bedeutenden Durchbrüchen sowohl in der Akademie als auch in der Industrie geführt. Eine Frage, die sich stellt, ist, wie wir als Menschen ihre internen neuronalen Repräsentationen verstehen können. Dieser Artikel geht einen ersten Schritt zur Beantwortung dieser Frage, indem er einen vielseitigen Rahmen zur Identifizierung und Interpretation der Semantik innerhalb von LMMs vorstellt. Konkret 1) wenden wir zunächst einen Sparse Autoencoder (SAE) an, um die Repräsentationen in für Menschen verständliche Merkmale zu entwirren. 2) Anschließend präsentieren wir einen automatischen Interpretationsrahmen, um die offenen semantischen Merkmale zu interpretieren, die in SAE von den LMMs selbst erlernt wurden. Wir nutzen diesen Rahmen, um das LLaVA-NeXT-8B-Modell mithilfe des LLaVA-OV-72B-Modells zu analysieren und zeigen, dass diese Merkmale das Verhalten des Modells effektiv lenken können. Unsere Ergebnisse tragen zu einem tieferen Verständnis bei, warum LMMs in bestimmten Aufgaben, einschließlich EQ-Tests, hervorragende Leistungen erbringen, und beleuchten die Art ihrer Fehler sowie potenzielle Strategien zu ihrer Korrektur. Diese Erkenntnisse bieten neue Einblicke in die internen Mechanismen von LMMs und legen Parallelen zu den kognitiven Prozessen des menschlichen Gehirns nahe.
English
Recent advances in Large Multimodal Models (LMMs) lead to significant breakthroughs in both academia and industry. One question that arises is how we, as humans, can understand their internal neural representations. This paper takes an initial step towards addressing this question by presenting a versatile framework to identify and interpret the semantics within LMMs. Specifically, 1) we first apply a Sparse Autoencoder(SAE) to disentangle the representations into human understandable features. 2) We then present an automatic interpretation framework to interpreted the open-semantic features learned in SAE by the LMMs themselves. We employ this framework to analyze the LLaVA-NeXT-8B model using the LLaVA-OV-72B model, demonstrating that these features can effectively steer the model's behavior. Our results contribute to a deeper understanding of why LMMs excel in specific tasks, including EQ tests, and illuminate the nature of their mistakes along with potential strategies for their rectification. These findings offer new insights into the internal mechanisms of LMMs and suggest parallels with the cognitive processes of the human brain.

Summary

AI-Generated Summary

PDF174November 25, 2024