ChatPaper.aiChatPaper

Modelos grandes multimodais podem interpretar características em modelos grandes multimodais.

Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

November 22, 2024
Autores: Kaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu
cs.AI

Resumo

Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) têm levado a avanços significativos tanto na academia quanto na indústria. Uma questão que surge é como nós, como humanos, podemos compreender as representações neurais internas desses modelos. Este artigo dá um passo inicial em direção a abordar essa questão ao apresentar um framework versátil para identificar e interpretar a semântica dentro dos LMMs. Especificamente, 1) aplicamos primeiro um Autoencoder Espaço-Eficiente (SAE) para desembaraçar as representações em características compreensíveis pelos humanos. 2) Em seguida, apresentamos um framework de interpretação automática para interpretar as características semânticas abertas aprendidas no SAE pelos próprios LMMs. Empregamos esse framework para analisar o modelo LLaVA-NeXT-8B usando o modelo LLaVA-OV-72B, demonstrando que essas características podem direcionar efetivamente o comportamento do modelo. Nossos resultados contribuem para uma compreensão mais profunda do porquê os LMMs se destacam em tarefas específicas, incluindo testes de EQ, e iluminam a natureza de seus erros, juntamente com estratégias potenciais para sua retificação. Essas descobertas oferecem novos insights sobre os mecanismos internos dos LMMs e sugerem paralelos com os processos cognitivos do cérebro humano.
English
Recent advances in Large Multimodal Models (LMMs) lead to significant breakthroughs in both academia and industry. One question that arises is how we, as humans, can understand their internal neural representations. This paper takes an initial step towards addressing this question by presenting a versatile framework to identify and interpret the semantics within LMMs. Specifically, 1) we first apply a Sparse Autoencoder(SAE) to disentangle the representations into human understandable features. 2) We then present an automatic interpretation framework to interpreted the open-semantic features learned in SAE by the LMMs themselves. We employ this framework to analyze the LLaVA-NeXT-8B model using the LLaVA-OV-72B model, demonstrating that these features can effectively steer the model's behavior. Our results contribute to a deeper understanding of why LMMs excel in specific tasks, including EQ tests, and illuminate the nature of their mistakes along with potential strategies for their rectification. These findings offer new insights into the internal mechanisms of LMMs and suggest parallels with the cognitive processes of the human brain.

Summary

AI-Generated Summary

PDF174November 25, 2024