Mapeando o Fluxo: Revelando Caminhos Ocultos de Informação em VideoLLMs
Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
October 15, 2025
Autores: Minji Kim, Taekyung Kim, Bohyung Han
cs.AI
Resumo
Os Modelos de Linguagem de Grande Porte para Vídeo (VideoLLMs) estendem as capacidades dos modelos visão-linguagem para entradas espaço-temporais, permitindo tarefas como resposta a perguntas sobre vídeo (VideoQA). Apesar dos avanços recentes em VideoLLMs, os seus mecanismos internos sobre onde e como extraem e propagam informações de vídeo e textuais permanecem pouco explorados. Neste estudo, investigamos o fluxo interno de informação dos VideoLLMs usando técnicas de interpretabilidade mecanicista. A nossa análise revela padrões consistentes em diversas tarefas de VideoQA: (1) o raciocínio temporal nos VideoLLMs inicia-se com interações ativas entre frames nas camadas iniciais a intermédias, (2) seguidas por uma integração progressiva vídeo-linguagem nas camadas intermédias. Isto é facilitado pelo alinhamento entre as representações de vídeo e os *embeddings* linguísticos que contêm conceitos temporais. (3) Após a conclusão desta integração, o modelo está pronto para gerar respostas corretas nas camadas intermédias a finais. (4) Com base na nossa análise, mostramos que os VideoLLMs podem manter o seu desempenho em VideoQA selecionando estes caminhos de informação eficazes enquanto suprimem uma quantidade substancial de arestas de atenção, por exemplo, 58% no LLaVA-NeXT-7B-Video-FT. Estas descobertas fornecem um modelo sobre como os VideoLLMs realizam o raciocínio temporal e oferecem perspetivas práticas para melhorar a interpretabilidade do modelo e a generalização para tarefas subsequentes. A nossa página do projeto com o código fonte está disponível em https://map-the-flow.github.io.
English
Video Large Language Models (VideoLLMs) extend the capabilities of
vision-language models to spatiotemporal inputs, enabling tasks such as video
question answering (VideoQA). Despite recent advances in VideoLLMs, their
internal mechanisms on where and how they extract and propagate video and
textual information remain less explored. In this study, we investigate the
internal information flow of VideoLLMs using mechanistic interpretability
techniques. Our analysis reveals consistent patterns across diverse VideoQA
tasks: (1) temporal reasoning in VideoLLMs initiates with active cross-frame
interactions in early-to-middle layers, (2) followed by progressive
video-language integration in middle layers. This is facilitated by alignment
between video representations and linguistic embeddings containing temporal
concepts. (3) Upon completion of this integration, the model is ready to
generate correct answers in middle-to-late layers. (4) Based on our analysis,
we show that VideoLLMs can retain their VideoQA performance by selecting these
effective information pathways while suppressing a substantial amount of
attention edges, e.g., 58% in LLaVA-NeXT-7B-Video-FT. These findings provide a
blueprint on how VideoLLMs perform temporal reasoning and offer practical
insights for improving model interpretability and downstream generalization.
Our project page with the source code is available at
https://map-the-flow.github.io