Los modelos multimodales grandes pueden interpretar características en modelos multimodales grandes.
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
November 22, 2024
Autores: Kaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu
cs.AI
Resumen
Los recientes avances en los Modelos Multimodales Grandes (LMMs) han llevado a avances significativos tanto en el ámbito académico como en la industria. Una pregunta que surge es cómo podemos, como humanos, entender las representaciones neuronales internas de estos modelos. Este artículo da un paso inicial hacia abordar esta pregunta al presentar un marco versátil para identificar e interpretar la semántica dentro de los LMMs. Específicamente, 1) primero aplicamos un Autoencoder Espaciado (SAE) para desentrañar las representaciones en características comprensibles para los humanos. 2) Luego presentamos un marco de interpretación automática para interpretar las características semánticas abiertas aprendidas en el SAE por los propios LMMs. Empleamos este marco para analizar el modelo LLaVA-NeXT-8B utilizando el modelo LLaVA-OV-72B, demostrando que estas características pueden dirigir efectivamente el comportamiento del modelo. Nuestros resultados contribuyen a una comprensión más profunda de por qué los LMMs sobresalen en tareas específicas, incluidas las pruebas de EQ, e iluminan la naturaleza de sus errores junto con estrategias potenciales para su rectificación. Estos hallazgos ofrecen nuevas perspectivas sobre los mecanismos internos de los LMMs y sugieren paralelismos con los procesos cognitivos del cerebro humano.
English
Recent advances in Large Multimodal Models (LMMs) lead to significant
breakthroughs in both academia and industry. One question that arises is how
we, as humans, can understand their internal neural representations. This paper
takes an initial step towards addressing this question by presenting a
versatile framework to identify and interpret the semantics within LMMs.
Specifically, 1) we first apply a Sparse Autoencoder(SAE) to disentangle the
representations into human understandable features. 2) We then present an
automatic interpretation framework to interpreted the open-semantic features
learned in SAE by the LMMs themselves. We employ this framework to analyze the
LLaVA-NeXT-8B model using the LLaVA-OV-72B model, demonstrating that these
features can effectively steer the model's behavior. Our results contribute to
a deeper understanding of why LMMs excel in specific tasks, including EQ tests,
and illuminate the nature of their mistakes along with potential strategies for
their rectification. These findings offer new insights into the internal
mechanisms of LMMs and suggest parallels with the cognitive processes of the
human brain.Summary
AI-Generated Summary