Pós-treinamento de Video-LMM: Uma Análise Profunda do Raciocínio em Vídeo com Modelos Multimodais de Grande Escala
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models
October 6, 2025
Autores: Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
cs.AI
Resumo
A compreensão de vídeo representa a fronteira mais desafiadora na visão computacional, exigindo que os modelos raciocinem sobre relações espaço-temporais complexas, dependências de longo prazo e evidências multimodais. O recente surgimento dos Modelos Multimodais de Grande Escala para Vídeo (Video-LMMs), que integram codificadores visuais com poderosos modelos de linguagem baseados em decodificadores, demonstrou capacidades notáveis em tarefas de compreensão de vídeo. No entanto, a fase crítica que transforma esses modelos de sistemas básicos de percepção em motores de raciocínio sofisticados, o pós-treinamento, permanece fragmentada na literatura. Esta pesquisa oferece o primeiro exame abrangente das metodologias de pós-treinamento para Video-LMMs, abrangendo três pilares fundamentais: ajuste fino supervisionado (SFT) com cadeia de pensamento, aprendizado por reforço (RL) a partir de objetivos verificáveis e escalonamento em tempo de teste (TTS) por meio de computação de inferência aprimorada. Apresentamos uma taxonomia estruturada que esclarece os papéis, interconexões e adaptações específicas para vídeo dessas técnicas, abordando desafios únicos como localização temporal, fundamentação espaço-temporal, eficiência em vídeos longos e integração de evidências multimodais. Por meio de uma análise sistemática de métodos representativos, sintetizamos princípios-chave de design, insights e protocolos de avaliação, enquanto identificamos desafios críticos em aberto no design de recompensas, escalabilidade e otimização de custo-desempenho. Além disso, reunimos benchmarks, conjuntos de dados e métricas essenciais para facilitar uma avaliação rigorosa da eficácia do pós-treinamento. Esta pesquisa visa fornecer aos pesquisadores e profissionais um framework unificado para avançar as capacidades dos Video-LMMs. Recursos adicionais e atualizações são mantidos em: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training.
English
Video understanding represents the most challenging frontier in computer
vision, requiring models to reason about complex spatiotemporal relationships,
long-term dependencies, and multimodal evidence. The recent emergence of
Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders
with powerful decoder-based language models, has demonstrated remarkable
capabilities in video understanding tasks. However, the critical phase that
transforms these models from basic perception systems into sophisticated
reasoning engines, post-training, remains fragmented across the literature.
This survey provides the first comprehensive examination of post-training
methodologies for Video-LMMs, encompassing three fundamental pillars:
supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL)
from verifiable objectives, and test-time scaling (TTS) through enhanced
inference computation. We present a structured taxonomy that clarifies the
roles, interconnections, and video-specific adaptations of these techniques,
addressing unique challenges such as temporal localization, spatiotemporal
grounding, long video efficiency, and multimodal evidence integration. Through
systematic analysis of representative methods, we synthesize key design
principles, insights, and evaluation protocols while identifying critical open
challenges in reward design, scalability, and cost-performance optimization. We
further curate essential benchmarks, datasets, and metrics to facilitate
rigorous assessment of post-training effectiveness. This survey aims to provide
researchers and practitioners with a unified framework for advancing Video-LMM
capabilities. Additional resources and updates are maintained at:
https://github.com/yunlong10/Awesome-Video-LMM-Post-Training