Regarder, retenir, raisonner : Compréhension vidéo en perspective humaine avec les MLLMs
Watch, Remember, Reason: Human-View Video Understanding with MLLMs
June 5, 2026
Auteurs: Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang
cs.AI
Résumé
La compréhension vidéo est rapidement transformée par les modèles de langage multimodaux de grande taille (MLLMs), à mesure que la recherche passe de courtes séquences à des scénarios vidéo longs, multimodaux et intensifs en connaissances. Ces scénarios exigent des modèles qu'ils traitent des preuves éparses, des dépendances à longue portée, un alignement multimodal et une inférence fiable sous des budgets computationnels limités. Ce travail présente une perspective centrée sur l'humain pour la compréhension vidéo basée sur les LLM, organisée autour de trois capacités fonctionnelles : l'observation, la mémorisation et le raisonnement. Plutôt que de traiter les tâches vidéo comme des benchmarks isolés, cette perspective offre une structure unifiée pour analyser comment les MLLMs vidéo acquièrent des preuves, préservent le contexte et produisent des sorties ancrées. Nous introduisons une formulation qui caractérise les systèmes de compréhension vidéo par leurs représentations perceptuelles, leurs états de mémoire, leurs traces de raisonnement et leurs prédictions finales. Sur la base de cette formulation, nous identifions des défis dans la perception spatio-temporelle, le traitement efficace des longues vidéos, la modélisation de la mémoire, la compréhension en flux et le raisonnement fidèle. Les méthodes représentatives sont organisées selon leurs rôles dans les systèmes MLLM vidéo. L'observation couvre la perception fine, complète, audiovisuelle et efficace. La mémorisation inclut la mémoire hors ligne et en flux, tandis que le raisonnement couvre le raisonnement textuel seul et le raisonnement avec vidéos. Nous examinons en outre des domaines d'application tels que les vidéos égocentriques, sportives, pédagogiques, médicales et narratives, et couvrons les ensembles de données d'entraînement et les bancs d'essai selon les types de tâches, les formats de supervision, les modalités et les dimensions de capacité. Enfin, nous décrivons les problèmes ouverts et les orientations futures pour une intelligence vidéo scalable, consciente de la mémoire et ancrée dans les preuves. Les travaux connexes seront suivis en continu à l'adresse https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.
English
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, multimodal, and knowledge-intensive video scenarios. These scenarios require models to handle sparse evidence, long-range dependencies, multimodal alignment, and reliable inference under limited computational budgets. This work presents a human-view perspective on LLM-based video understanding, organized around three functional abilities: watching, remembering, and reasoning. Rather than treating video tasks as isolated benchmarks, this view provides a unified structure for analyzing how video MLLMs acquire evidence, preserve context, and produce grounded outputs. We introduce a formulation that characterizes video understanding systems by their perceptual representations, memory states, reasoning traces, and final predictions. Based on this formulation, we identify challenges in spatio-temporal perception, efficient long-video processing, memory modeling, streaming understanding, and faithful reasoning. Representative methods are organized by their roles in video MLLM systems. Watching covers fine-grained, comprehensive, audio-visual, and efficient perception. Remembering includes offline and streaming memory, while reasoning covers text-only reasoning and thinking with videos. We further examine application domains such as egocentric, sports, instructional, medical, and narrative videos, and cover training datasets and evaluation benchmarks across task types, supervision formats, modalities, and capability dimensions. Finally, we outline open problems and future directions for scalable, memory-aware, and evidence-grounded video intelligence. Related works will be continuously traced at https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.