Les grands modèles multimodaux peuvent interpréter les caractéristiques des grands modèles multimodaux.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
November 22, 2024
Auteurs: Kaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu
cs.AI
Résumé
Les récentes avancées dans les Grands Modèles Multimodaux (GMM) ont conduit à des percées significatives tant dans le milieu universitaire que dans l'industrie. Une question qui se pose est de savoir comment nous, en tant qu'humains, pouvons comprendre les représentations neuronales internes de ces modèles. Cet article franchit une première étape vers la résolution de cette question en présentant un cadre polyvalent pour identifier et interpréter les sémantiques au sein des GMM. Plus précisément, 1) nous appliquons d'abord un Autoencodeur Épars (SAE) pour démêler les représentations en caractéristiques compréhensibles par les humains. 2) Nous présentons ensuite un cadre d'interprétation automatique pour interpréter les caractéristiques sémantiques ouvertes apprises dans le SAE par les GMM eux-mêmes. Nous utilisons ce cadre pour analyser le modèle LLaVA-NeXT-8B en utilisant le modèle LLaVA-OV-72B, démontrant que ces caractéristiques peuvent efficacement orienter le comportement du modèle. Nos résultats contribuent à une compréhension plus approfondie des raisons pour lesquelles les GMM excellent dans des tâches spécifiques, y compris les tests d'EQ, et éclairent la nature de leurs erreurs ainsi que les stratégies potentielles pour les rectifier. Ces découvertes offrent de nouvelles perspectives sur les mécanismes internes des GMM et suggèrent des parallèles avec les processus cognitifs du cerveau humain.
English
Recent advances in Large Multimodal Models (LMMs) lead to significant
breakthroughs in both academia and industry. One question that arises is how
we, as humans, can understand their internal neural representations. This paper
takes an initial step towards addressing this question by presenting a
versatile framework to identify and interpret the semantics within LMMs.
Specifically, 1) we first apply a Sparse Autoencoder(SAE) to disentangle the
representations into human understandable features. 2) We then present an
automatic interpretation framework to interpreted the open-semantic features
learned in SAE by the LMMs themselves. We employ this framework to analyze the
LLaVA-NeXT-8B model using the LLaVA-OV-72B model, demonstrating that these
features can effectively steer the model's behavior. Our results contribute to
a deeper understanding of why LMMs excel in specific tasks, including EQ tests,
and illuminate the nature of their mistakes along with potential strategies for
their rectification. These findings offer new insights into the internal
mechanisms of LMMs and suggest parallels with the cognitive processes of the
human brain.Summary
AI-Generated Summary