Beobachten, Erinnern, Schlussfolgern: Video-Verständnis aus menschlicher Perspektive mit MLLMs

Zusammenfassung

Die Videoverarbeitung wird durch multimodale große Sprachmodelle (MLLMs) rasant verändert, da sich die Forschung von kurzen Clips hin zu langen, multimodalen und wissensintensiven Videoszenarien bewegt. Diese Szenarien erfordern Modelle, die spärliche Evidenz, weitreichende Abhängigkeiten, multimodale Ausrichtung und zuverlässiges Schließen bei begrenzten Rechenressourcen bewältigen können. Diese Arbeit präsentiert eine menschliche Perspektive auf LLM-basierte Videoverarbeitung, gegliedert nach drei funktionalen Fähigkeiten: Sehen, Erinnern und Denken. Anstatt Videosequenzen als isolierte Benchmarks zu behandeln, bietet diese Sichtweise eine einheitliche Struktur zur Analyse, wie Video-MLLMs Evidenz erfassen, Kontext bewahren und fundierte Ergebnisse liefern. Wir führen eine Formulierung ein, die Videoverarbeitungssysteme anhand ihrer Wahrnehmungsrepräsentationen, Gedächtniszustände, Logikspuren und endgültigen Vorhersagen charakterisiert. Basierend auf dieser Formulierung identifizieren wir Herausforderungen in der räumlich-zeitlichen Wahrnehmung, effizienten Langvideoverarbeitung, Gedächtnismodellierung, Streaming-Verständnis und zuverlässigem Schließen. Repräsentative Methoden werden nach ihrer Rolle in Video-MLLM-Systemen geordnet. „Sehen" umfasst feinkörnige, umfassende, audiovisuelle und effiziente Wahrnehmung. „Erinnern" beinhaltet Offline- und Streaming-Gedächtnis, während „Denken" textbasiertes Schließen und Denken mit Videos abdeckt. Wir untersuchen zudem Anwendungsbereiche wie egozentrische, Sport-, lehrbezogene, medizinische und narrative Videos und behandeln Trainingsdatensätze und Evaluierungs-Benchmarks nach Aufgabentypen, Supervisionsformaten, Modalitäten und Fähigkeitsdimensionen. Abschließend skizzieren wir offene Probleme und zukünftige Richtungen für skalierbare, gedächtnisbewusste und evidenzbasierte Video-Intelligenz. Verwandte Arbeiten werden fortlaufend unter https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding verfolgt.

English

Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, multimodal, and knowledge-intensive video scenarios. These scenarios require models to handle sparse evidence, long-range dependencies, multimodal alignment, and reliable inference under limited computational budgets. This work presents a human-view perspective on LLM-based video understanding, organized around three functional abilities: watching, remembering, and reasoning. Rather than treating video tasks as isolated benchmarks, this view provides a unified structure for analyzing how video MLLMs acquire evidence, preserve context, and produce grounded outputs. We introduce a formulation that characterizes video understanding systems by their perceptual representations, memory states, reasoning traces, and final predictions. Based on this formulation, we identify challenges in spatio-temporal perception, efficient long-video processing, memory modeling, streaming understanding, and faithful reasoning. Representative methods are organized by their roles in video MLLM systems. Watching covers fine-grained, comprehensive, audio-visual, and efficient perception. Remembering includes offline and streaming memory, while reasoning covers text-only reasoning and thinking with videos. We further examine application domains such as egocentric, sports, instructional, medical, and narrative videos, and cover training datasets and evaluation benchmarks across task types, supervision formats, modalities, and capability dimensions. Finally, we outline open problems and future directions for scalable, memory-aware, and evidence-grounded video intelligence. Related works will be continuously traced at https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.