Картирование потока: раскрытие скрытых путей передачи информации в VideoLLM
Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
October 15, 2025
Авторы: Minji Kim, Taekyung Kim, Bohyung Han
cs.AI
Аннотация
Крупные языковые модели для видео (VideoLLMs) расширяют возможности визуально-языковых моделей на пространственно-временные входные данные, позволяя решать такие задачи, как ответы на вопросы по видео (VideoQA). Несмотря на недавние успехи в области VideoLLMs, их внутренние механизмы, определяющие, где и как они извлекают и передают видео- и текстовую информацию, остаются малоизученными. В данном исследовании мы изучаем внутренний поток информации в VideoLLMs с помощью методов механистической интерпретируемости. Наш анализ выявляет устойчивые закономерности для различных задач VideoQA: (1) временное рассуждение в VideoLLMs начинается с активных межкадровых взаимодействий в ранних и средних слоях, (2) за которыми следует прогрессирующая интеграция видео и языка в средних слоях. Это обеспечивается выравниванием видеопредставлений и языковых эмбеддингов, содержащих временные концепты. (3) После завершения этой интеграции модель готова генерировать правильные ответы в средних и поздних слоях. (4) На основе нашего анализа мы показываем, что VideoLLMs могут сохранять свою производительность в задачах VideoQA, выбирая эти эффективные информационные пути, одновременно подавляя значительное количество ребер внимания, например, 58% в LLaVA-NeXT-7B-Video-FT. Эти результаты дают представление о том, как VideoLLMs выполняют временное рассуждение, и предлагают практические идеи для улучшения интерпретируемости моделей и их обобщающей способности на смежных задачах. Страница нашего проекта с исходным кодом доступна по адресу https://map-the-flow.github.io.
English
Video Large Language Models (VideoLLMs) extend the capabilities of
vision-language models to spatiotemporal inputs, enabling tasks such as video
question answering (VideoQA). Despite recent advances in VideoLLMs, their
internal mechanisms on where and how they extract and propagate video and
textual information remain less explored. In this study, we investigate the
internal information flow of VideoLLMs using mechanistic interpretability
techniques. Our analysis reveals consistent patterns across diverse VideoQA
tasks: (1) temporal reasoning in VideoLLMs initiates with active cross-frame
interactions in early-to-middle layers, (2) followed by progressive
video-language integration in middle layers. This is facilitated by alignment
between video representations and linguistic embeddings containing temporal
concepts. (3) Upon completion of this integration, the model is ready to
generate correct answers in middle-to-late layers. (4) Based on our analysis,
we show that VideoLLMs can retain their VideoQA performance by selecting these
effective information pathways while suppressing a substantial amount of
attention edges, e.g., 58% in LLaVA-NeXT-7B-Video-FT. These findings provide a
blueprint on how VideoLLMs perform temporal reasoning and offer practical
insights for improving model interpretability and downstream generalization.
Our project page with the source code is available at
https://map-the-flow.github.io