흐름을 매핑하다: VideoLLM에서 숨겨진 정보 경로를 밝히다
Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs
October 15, 2025
저자: Minji Kim, Taekyung Kim, Bohyung Han
cs.AI
초록
비디오 대규모 언어 모델(VideoLLM)은 시각-언어 모델의 능력을 시공간적 입력으로 확장하여 비디오 질의응답(VideoQA)과 같은 작업을 가능하게 합니다. 최근 VideoLLM의 발전에도 불구하고, 비디오와 텍스트 정보를 어디서 어떻게 추출하고 전파하는지에 대한 내부 메커니즘은 아직 충분히 연구되지 않았습니다. 본 연구에서는 기계론적 해석 기법을 사용하여 VideoLLM의 내부 정보 흐름을 조사합니다. 우리의 분석은 다양한 VideoQA 작업에서 일관된 패턴을 보여줍니다: (1) VideoLLM의 시간적 추론은 초기부터 중간 계층에서 활발한 교차 프레임 상호작용으로 시작하며, (2) 이어서 중간 계층에서 점진적인 비디오-언어 통합이 이루어집니다. 이는 시간적 개념을 포함하는 언어 임베딩과 비디오 표현 간의 정렬에 의해 촉진됩니다. (3) 이러한 통합이 완료되면 모델은 중간부터 후반 계층에서 정답을 생성할 준비가 됩니다. (4) 우리의 분석을 바탕으로, VideoLLM이 상당량의 어텐션 간선(예: LLaVA-NeXT-7B-Video-FT에서 58%)을 억제하면서도 이러한 효과적인 정보 경로를 선택하여 VideoQA 성능을 유지할 수 있음을 보여줍니다. 이러한 발견들은 VideoLLM이 어떻게 시간적 추론을 수행하는지에 대한 청사진을 제공하며, 모델 해석 가능성과 하위 작업 일반화 성능을 개선하기 위한 실용적인 통찰력을 제공합니다. 소스 코드가 포함된 프로젝트 페이지는 https://map-the-flow.github.io에서 확인할 수 있습니다.
English
Video Large Language Models (VideoLLMs) extend the capabilities of
vision-language models to spatiotemporal inputs, enabling tasks such as video
question answering (VideoQA). Despite recent advances in VideoLLMs, their
internal mechanisms on where and how they extract and propagate video and
textual information remain less explored. In this study, we investigate the
internal information flow of VideoLLMs using mechanistic interpretability
techniques. Our analysis reveals consistent patterns across diverse VideoQA
tasks: (1) temporal reasoning in VideoLLMs initiates with active cross-frame
interactions in early-to-middle layers, (2) followed by progressive
video-language integration in middle layers. This is facilitated by alignment
between video representations and linguistic embeddings containing temporal
concepts. (3) Upon completion of this integration, the model is ready to
generate correct answers in middle-to-late layers. (4) Based on our analysis,
we show that VideoLLMs can retain their VideoQA performance by selecting these
effective information pathways while suppressing a substantial amount of
attention edges, e.g., 58% in LLaVA-NeXT-7B-Video-FT. These findings provide a
blueprint on how VideoLLMs perform temporal reasoning and offer practical
insights for improving model interpretability and downstream generalization.
Our project page with the source code is available at
https://map-the-flow.github.io