ChatPaper.aiChatPaper

Observar, Recordar, Razonar: Comprensión de Video desde la Perspectiva Humana con MLLMs

Watch, Remember, Reason: Human-View Video Understanding with MLLMs

June 5, 2026
Autores: Jiahao Meng, Yue Tan, Qi Xu, Kuan Gao, Weisong Liu, Yanwei Li, Jason Li, Lingdong Kong, Haochen Wang, Qianyu Zhou, Jiangning Zhang, Guangliang Cheng, Yunhai Tong, Lu Qi, Minghsuan Yang
cs.AI

Resumen

La comprensión de video está siendo transformada rápidamente por los modelos multimodales de lenguaje de gran escala (MLLMs, por sus siglas en inglés), a medida que la investigación avanza desde clips cortos hacia escenarios de video largos, multimodales y con alto contenido de conocimiento. Estos escenarios requieren que los modelos manejen evidencia dispersa, dependencias de largo alcance, alineación multimodal e inferencia confiable bajo presupuestos computacionales limitados. Este trabajo presenta una perspectiva centrada en la visión humana sobre la comprensión de video basada en LLMs, organizada en torno a tres capacidades funcionales: observar, recordar y razonar. En lugar de tratar las tareas de video como puntos de referencia aislados, esta perspectiva proporciona una estructura unificada para analizar cómo los MLLMs de video adquieren evidencia, preservan el contexto y generan resultados fundamentados. Introducimos una formulación que caracteriza los sistemas de comprensión de video por sus representaciones perceptuales, estados de memoria, trazas de razonamiento y predicciones finales. Basándonos en esta formulación, identificamos desafíos en la percepción espacio-temporal, el procesamiento eficiente de videos largos, el modelado de memoria, la comprensión en streaming y el razonamiento fiable. Los métodos representativos se organizan según sus funciones en los sistemas MLLM de video. La observación abarca la percepción detallada, integral, audiovisual y eficiente. La memoria incluye la memoria fuera de línea y en streaming, mientras que el razonamiento cubre el razonamiento solo con texto y el pensamiento con videos. Además, examinamos dominios de aplicación como videos egocéntricos, deportivos, instructivos, médicos y narrativos, y cubrimos conjuntos de datos de entrenamiento y puntos de referencia de evaluación según tipos de tareas, formatos de supervisión, modalidades y dimensiones de capacidad. Finalmente, esbozamos problemas abiertos y direcciones futuras para la inteligencia de video escalable, consciente de la memoria y fundamentada en evidencia. Los trabajos relacionados se seguirán rastreando continuamente en https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.
English
Video understanding is being rapidly transformed by multimodal large language models (MLLMs), as research moves from short clips to long, multimodal, and knowledge-intensive video scenarios. These scenarios require models to handle sparse evidence, long-range dependencies, multimodal alignment, and reliable inference under limited computational budgets. This work presents a human-view perspective on LLM-based video understanding, organized around three functional abilities: watching, remembering, and reasoning. Rather than treating video tasks as isolated benchmarks, this view provides a unified structure for analyzing how video MLLMs acquire evidence, preserve context, and produce grounded outputs. We introduce a formulation that characterizes video understanding systems by their perceptual representations, memory states, reasoning traces, and final predictions. Based on this formulation, we identify challenges in spatio-temporal perception, efficient long-video processing, memory modeling, streaming understanding, and faithful reasoning. Representative methods are organized by their roles in video MLLM systems. Watching covers fine-grained, comprehensive, audio-visual, and efficient perception. Remembering includes offline and streaming memory, while reasoning covers text-only reasoning and thinking with videos. We further examine application domains such as egocentric, sports, instructional, medical, and narrative videos, and cover training datasets and evaluation benchmarks across task types, supervision formats, modalities, and capability dimensions. Finally, we outline open problems and future directions for scalable, memory-aware, and evidence-grounded video intelligence. Related works will be continuously traced at https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.