Entrenamiento Posterior de Video-LMM: Un Análisis Profundo del Razonamiento en Video con Modelos Multimodales de Gran Escala
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models
October 6, 2025
Autores: Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
cs.AI
Resumen
La comprensión de video representa la frontera más desafiante en la visión por computadora, ya que requiere que los modelos razonen sobre relaciones espacio-temporales complejas, dependencias a largo plazo y evidencia multimodal. La reciente aparición de los Modelos Multimodales de Gran Escala para Video (Video-LMMs, por sus siglas en inglés), que integran codificadores visuales con potentes modelos de lenguaje basados en decodificadores, ha demostrado capacidades notables en tareas de comprensión de video. Sin embargo, la fase crítica que transforma estos modelos desde sistemas de percepción básica hasta motores de razonamiento sofisticados, conocida como post-entrenamiento, sigue estando fragmentada en la literatura. Este estudio ofrece el primer examen exhaustivo de las metodologías de post-entrenamiento para Video-LMMs, abarcando tres pilares fundamentales: ajuste fino supervisado (SFT) con cadena de pensamiento, aprendizaje por refuerzo (RL) a partir de objetivos verificables, y escalado en tiempo de prueba (TTS) mediante computación de inferencia mejorada. Presentamos una taxonomía estructurada que aclara los roles, interconexiones y adaptaciones específicas para video de estas técnicas, abordando desafíos únicos como la localización temporal, la fundamentación espacio-temporal, la eficiencia en videos largos y la integración de evidencia multimodal. A través de un análisis sistemático de métodos representativos, sintetizamos principios de diseño clave, insights y protocolos de evaluación, mientras identificamos desafíos abiertos críticos en el diseño de recompensas, escalabilidad y optimización de costo-rendimiento. Además, recopilamos benchmarks, conjuntos de datos y métricas esenciales para facilitar una evaluación rigurosa de la efectividad del post-entrenamiento. Este estudio tiene como objetivo proporcionar a investigadores y profesionales un marco unificado para avanzar en las capacidades de los Video-LMMs. Recursos adicionales y actualizaciones se mantienen en: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training.
English
Video understanding represents the most challenging frontier in computer
vision, requiring models to reason about complex spatiotemporal relationships,
long-term dependencies, and multimodal evidence. The recent emergence of
Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders
with powerful decoder-based language models, has demonstrated remarkable
capabilities in video understanding tasks. However, the critical phase that
transforms these models from basic perception systems into sophisticated
reasoning engines, post-training, remains fragmented across the literature.
This survey provides the first comprehensive examination of post-training
methodologies for Video-LMMs, encompassing three fundamental pillars:
supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL)
from verifiable objectives, and test-time scaling (TTS) through enhanced
inference computation. We present a structured taxonomy that clarifies the
roles, interconnections, and video-specific adaptations of these techniques,
addressing unique challenges such as temporal localization, spatiotemporal
grounding, long video efficiency, and multimodal evidence integration. Through
systematic analysis of representative methods, we synthesize key design
principles, insights, and evaluation protocols while identifying critical open
challenges in reward design, scalability, and cost-performance optimization. We
further curate essential benchmarks, datasets, and metrics to facilitate
rigorous assessment of post-training effectiveness. This survey aims to provide
researchers and practitioners with a unified framework for advancing Video-LMM
capabilities. Additional resources and updates are maintained at:
https://github.com/yunlong10/Awesome-Video-LMM-Post-Training