ChatPaper.aiChatPaper

Большие мультимодальные модели могут интерпретировать признаки в больших мультимодальных моделях.

Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

November 22, 2024
Авторы: Kaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu
cs.AI

Аннотация

Недавние достижения в области крупных мультимодальных моделей (Large Multimodal Models, LMMs) привели к значительным прорывам как в академической среде, так и в промышленности. Одним из возникающих вопросов является то, как мы, как люди, можем понять их внутренние нейронные представления. Настоящая статья делает первый шаг к решению этого вопроса, представляя универсальную методику для выявления и интерпретации семантики внутри LMMs. Конкретно, 1) мы сначала применяем Разреженный автокодировщик (Sparse Autoencoder, SAE) для разделения представлений на понятные человеку особенности. 2) Затем мы представляем автоматическую методику интерпретации для интерпретации открытой семантической особенности, выученной в SAE самими LMMs. Мы используем эту методику для анализа модели LLaVA-NeXT-8B с использованием модели LLaVA-OV-72B, демонстрируя, что эти особенности могут эффективно управлять поведением модели. Наши результаты способствуют более глубокому пониманию причин, почему LMMs преуспевают в конкретных задачах, включая тесты на эмоциональный интеллект, и проливают свет на характер их ошибок, а также потенциальные стратегии для их исправления. Эти выводы предлагают новые идеи о внутренних механизмах LMMs и указывают на параллели с когнитивными процессами человеческого мозга.
English
Recent advances in Large Multimodal Models (LMMs) lead to significant breakthroughs in both academia and industry. One question that arises is how we, as humans, can understand their internal neural representations. This paper takes an initial step towards addressing this question by presenting a versatile framework to identify and interpret the semantics within LMMs. Specifically, 1) we first apply a Sparse Autoencoder(SAE) to disentangle the representations into human understandable features. 2) We then present an automatic interpretation framework to interpreted the open-semantic features learned in SAE by the LMMs themselves. We employ this framework to analyze the LLaVA-NeXT-8B model using the LLaVA-OV-72B model, demonstrating that these features can effectively steer the model's behavior. Our results contribute to a deeper understanding of why LMMs excel in specific tasks, including EQ tests, and illuminate the nature of their mistakes along with potential strategies for their rectification. These findings offer new insights into the internal mechanisms of LMMs and suggest parallels with the cognitive processes of the human brain.

Summary

AI-Generated Summary

PDF174November 25, 2024