Mappare il Flusso: Rivelare i Percorsi Nascosti dell'Informazione nei VideoLLM
Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
October 15, 2025
Autori: Minji Kim, Taekyung Kim, Bohyung Han
cs.AI
Abstract
I modelli linguistici di grandi dimensioni per video (VideoLLM) estendono le capacità dei modelli visione-linguaggio agli input spaziotemporali, abilitando compiti come la risposta a domande su video (VideoQA). Nonostante i recenti progressi nei VideoLLM, i loro meccanismi interni su dove e come estraggono e propagano le informazioni video e testuali rimangono poco esplorati. In questo studio, investigiamo il flusso informativo interno dei VideoLLM utilizzando tecniche di interpretabilità meccanicistica. La nostra analisi rivela modelli consistenti tra diversi compiti di VideoQA: (1) il ragionamento temporale nei VideoLLM inizia con interazioni attive tra frame negli strati iniziali e intermedi, (2) seguito da un'integrazione progressiva video-linguaggio negli strati intermedi. Ciò è facilitato dall'allineamento tra le rappresentazioni video e gli embedding linguistici contenenti concetti temporali. (3) Al completamento di questa integrazione, il modello è pronto a generare risposte corrette negli strati intermedi e finali. (4) Sulla base della nostra analisi, dimostriamo che i VideoLLM possono mantenere le loro prestazioni di VideoQA selezionando questi percorsi informativi efficaci sopprimendo contemporaneamente una quantità sostanziale di connessioni di attenzione, ad esempio il 58% in LLaVA-NeXT-7B-Video-FT. Questi risultati forniscono una mappa su come i VideoLLM eseguono il ragionamento temporale e offrono spunti pratici per migliorare l'interpretabilità del modello e la generalizzazione per compiti downstream. La nostra pagina del progetto con il codice sorgente è disponibile all'indirizzo https://map-the-flow.github.io.
English
Video Large Language Models (VideoLLMs) extend the capabilities of
vision-language models to spatiotemporal inputs, enabling tasks such as video
question answering (VideoQA). Despite recent advances in VideoLLMs, their
internal mechanisms on where and how they extract and propagate video and
textual information remain less explored. In this study, we investigate the
internal information flow of VideoLLMs using mechanistic interpretability
techniques. Our analysis reveals consistent patterns across diverse VideoQA
tasks: (1) temporal reasoning in VideoLLMs initiates with active cross-frame
interactions in early-to-middle layers, (2) followed by progressive
video-language integration in middle layers. This is facilitated by alignment
between video representations and linguistic embeddings containing temporal
concepts. (3) Upon completion of this integration, the model is ready to
generate correct answers in middle-to-late layers. (4) Based on our analysis,
we show that VideoLLMs can retain their VideoQA performance by selecting these
effective information pathways while suppressing a substantial amount of
attention edges, e.g., 58% in LLaVA-NeXT-7B-Video-FT. These findings provide a
blueprint on how VideoLLMs perform temporal reasoning and offer practical
insights for improving model interpretability and downstream generalization.
Our project page with the source code is available at
https://map-the-flow.github.io