Mapear el Flujo: Revelando las Vías Ocultas de la Información en los VideoLLM
Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
October 15, 2025
Autores: Minji Kim, Taekyung Kim, Bohyung Han
cs.AI
Resumen
Los Modelos de Lenguaje Grandes de Video (VideoLLMs) amplían las capacidades de los modelos de visión y lenguaje hacia entradas espacio-temporales, permitiendo tareas como la respuesta a preguntas sobre video (VideoQA). A pesar de los recientes avances en VideoLLMs, sus mecanismos internos sobre dónde y cómo extraen y propagan la información de video y textual han sido menos explorados. En este estudio, investigamos el flujo interno de información de los VideoLLMs utilizando técnicas de interpretabilidad mecanicista. Nuestro análisis revela patrones consistentes en diversas tareas de VideoQA: (1) el razonamiento temporal en los VideoLLMs se inicia con interacciones activas entre frames en las capas tempranas a medias, (2) seguidas por una integración progresiva de video y lenguaje en las capas medias. Esto es facilitado por una alineación entre las representaciones de video y los embeddings lingüísticos que contienen conceptos temporales. (3) Una vez completada esta integración, el modelo está listo para generar respuestas correctas en las capas medias a tardías. (4) Basándonos en nuestro análisis, demostramos que los VideoLLMs pueden mantener su rendimiento en VideoQA seleccionando estas vías de información efectivas mientras suprimen una cantidad sustancial de conexiones de atención, por ejemplo, un 58% en LLaVA-NeXT-7B-Video-FT. Estos hallazgos proporcionan un plano de cómo los VideoLLMs realizan el razonamiento temporal y ofrecen perspectivas prácticas para mejorar la interpretabilidad del modelo y su generalización para tareas posteriores. Nuestra página del proyecto con el código fuente está disponible en https://map-the-flow.github.io.
English
Video Large Language Models (VideoLLMs) extend the capabilities of
vision-language models to spatiotemporal inputs, enabling tasks such as video
question answering (VideoQA). Despite recent advances in VideoLLMs, their
internal mechanisms on where and how they extract and propagate video and
textual information remain less explored. In this study, we investigate the
internal information flow of VideoLLMs using mechanistic interpretability
techniques. Our analysis reveals consistent patterns across diverse VideoQA
tasks: (1) temporal reasoning in VideoLLMs initiates with active cross-frame
interactions in early-to-middle layers, (2) followed by progressive
video-language integration in middle layers. This is facilitated by alignment
between video representations and linguistic embeddings containing temporal
concepts. (3) Upon completion of this integration, the model is ready to
generate correct answers in middle-to-late layers. (4) Based on our analysis,
we show that VideoLLMs can retain their VideoQA performance by selecting these
effective information pathways while suppressing a substantial amount of
attention edges, e.g., 58% in LLaVA-NeXT-7B-Video-FT. These findings provide a
blueprint on how VideoLLMs perform temporal reasoning and offer practical
insights for improving model interpretability and downstream generalization.
Our project page with the source code is available at
https://map-the-flow.github.io