Kijken, Onthouden, Redeneren: Videobegrip vanuit Menselijk Perspectief met MLLMs

Samenvatting

Videobegrip wordt snel getransformeerd door multimodale grote taalmodellen (MLLM's), naarmate onderzoek verschuift van korte clips naar lange, multimodale en kennisintensieve videoscenario's. Deze scenario's vereisen dat modellen omgaan met schaars bewijs, afhankelijkheden over grote afstanden, multimodale afstemming en betrouwbare inferentie onder beperkte rekenbudgetten. Dit werk presenteert een mensperspectief op LLM-gebaseerd videobegrip, georganiseerd rond drie functionele vaardigheden: kijken, onthouden en redeneren. In plaats van videotaken te behandelen als geïsoleerde benchmarks, biedt deze visie een uniforme structuur voor het analyseren hoe video-MLLM's bewijs verzamelen, context behouden en gegronde outputs produceren. We introduceren een formulering die videobegripsystemen karakteriseert door hun perceptuele representaties, geheugentoestanden, redeneersporen en uiteindelijke voorspellingen. Op basis van deze formulering identificeren we uitdagingen in ruimtelijk-temporele perceptie, efficiënte verwerking van lange video's, geheugenmodellering, streamingbegrip en betrouwbaar redeneren. Representatieve methoden worden georganiseerd op basis van hun rol in video-MLLM-systemen. Kijken omvat fijnmazige, uitgebreide, audiovisuele en efficiënte perceptie. Onthouden omvat offline en streaminggeheugen, terwijl redeneren tekst-only redeneren en denken met video's omvat. We onderzoeken verder toepassingsdomeinen zoals egocentrische, sport-, instructie-, medische en narratieve video's, en behandelen trainingsdatasets en evaluatiebenchmarks over taaktypen, supervisieformaten, modaliteiten en capaciteitsdimensies. Tot slot schetsen we open problemen en toekomstige richtingen voor schaalbare, geheugenbewuste en op bewijs gebaseerde video-intelligentie. Gerelateerde werken zullen continu worden bijgehouden op https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.

English

Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, multimodal, and knowledge-intensive video scenarios. These scenarios require models to handle sparse evidence, long-range dependencies, multimodal alignment, and reliable inference under limited computational budgets. This work presents a human-view perspective on LLM-based video understanding, organized around three functional abilities: watching, remembering, and reasoning. Rather than treating video tasks as isolated benchmarks, this view provides a unified structure for analyzing how video MLLMs acquire evidence, preserve context, and produce grounded outputs. We introduce a formulation that characterizes video understanding systems by their perceptual representations, memory states, reasoning traces, and final predictions. Based on this formulation, we identify challenges in spatio-temporal perception, efficient long-video processing, memory modeling, streaming understanding, and faithful reasoning. Representative methods are organized by their roles in video MLLM systems. Watching covers fine-grained, comprehensive, audio-visual, and efficient perception. Remembering includes offline and streaming memory, while reasoning covers text-only reasoning and thinking with videos. We further examine application domains such as egocentric, sports, instructional, medical, and narrative videos, and cover training datasets and evaluation benchmarks across task types, supervision formats, modalities, and capability dimensions. Finally, we outline open problems and future directions for scalable, memory-aware, and evidence-grounded video intelligence. Related works will be continuously traced at https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.