Assistir, Lembrar, Raciocinar: Compreensão de Vídeos sob Perspectiva Humana com MLLMs

Resumo

A compreensão de vídeo está sendo rapidamente transformada por modelos de linguagem multimodal de grande escala (MLLMs), à medida que a pesquisa avança de clipes curtos para cenários de vídeo longos, multimodais e intensivos em conhecimento. Esses cenários exigem que os modelos lidem com evidências esparsas, dependências de longo alcance, alinhamento multimodal e inferência confiável sob orçamentos computacionais limitados. Este trabalho apresenta uma perspectiva de visão humana sobre a compreensão de vídeo baseada em LLMs, organizada em torno de três habilidades funcionais: observar, lembrar e raciocinar. Em vez de tratar tarefas de vídeo como benchmarks isolados, essa visão fornece uma estrutura unificada para analisar como os MLLMs de vídeo adquirem evidências, preservam contexto e produzem saídas fundamentadas. Introduzimos uma formulação que caracteriza sistemas de compreensão de vídeo por suas representações perceptuais, estados de memória, traços de raciocínio e previsões finais. Com base nessa formulação, identificamos desafios na percepção espaço-temporal, processamento eficiente de vídeos longos, modelagem de memória, compreensão em streaming e raciocínio fiel. Métodos representativos são organizados de acordo com seus papéis em sistemas MLLM de vídeo. Observar abrange percepção detalhada, abrangente, audiovisual e eficiente. Lembrar inclui memória offline e em streaming, enquanto raciocinar abrange raciocínio apenas textual e pensamento com vídeos. Examinamos ainda domínios de aplicação como vídeos egocêntricos, esportivos, instrucionais, médicos e narrativos, e cobrimos conjuntos de dados de treinamento e benchmarks de avaliação em tipos de tarefa, formatos de supervisão, modalidades e dimensões de capacidade. Por fim, delineamos problemas em aberto e direções futuras para inteligência de vídeo escalável, consciente de memória e fundamentada em evidências. Trabalhos relacionados serão continuamente rastreados em https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.

English

Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, multimodal, and knowledge-intensive video scenarios. These scenarios require models to handle sparse evidence, long-range dependencies, multimodal alignment, and reliable inference under limited computational budgets. This work presents a human-view perspective on LLM-based video understanding, organized around three functional abilities: watching, remembering, and reasoning. Rather than treating video tasks as isolated benchmarks, this view provides a unified structure for analyzing how video MLLMs acquire evidence, preserve context, and produce grounded outputs. We introduce a formulation that characterizes video understanding systems by their perceptual representations, memory states, reasoning traces, and final predictions. Based on this formulation, we identify challenges in spatio-temporal perception, efficient long-video processing, memory modeling, streaming understanding, and faithful reasoning. Representative methods are organized by their roles in video MLLM systems. Watching covers fine-grained, comprehensive, audio-visual, and efficient perception. Remembering includes offline and streaming memory, while reasoning covers text-only reasoning and thinking with videos. We further examine application domains such as egocentric, sports, instructional, medical, and narrative videos, and cover training datasets and evaluation benchmarks across task types, supervision formats, modalities, and capability dimensions. Finally, we outline open problems and future directions for scalable, memory-aware, and evidence-grounded video intelligence. Related works will be continuously traced at https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.