ChatPaper.aiChatPaper

Post-Addestramento di Video-LMM: Un Approfondimento sul Ragionamento Video con Modelli Multimodali di Grandi Dimensioni

Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

October 6, 2025
Autori: Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
cs.AI

Abstract

La comprensione video rappresenta la frontiera più impegnativa nella visione artificiale, richiedendo ai modelli di ragionare su complesse relazioni spaziotemporali, dipendenze a lungo termine ed evidenze multimodali. La recente comparsa di Modelli Multimodali di Grande Scala per Video (Video-LMM), che integrano encoder visivi con potenti modelli linguistici basati su decoder, ha dimostrato capacità straordinarie nei compiti di comprensione video. Tuttavia, la fase cruciale che trasforma questi modelli da semplici sistemi di percezione in motori di ragionamento sofisticati, ovvero il post-training, rimane frammentata nella letteratura. Questa rassegna offre la prima analisi completa delle metodologie di post-training per i Video-LMM, abbracciando tre pilastri fondamentali: il fine-tuning supervisionato (SFT) con catena di pensiero, l'apprendimento per rinforzo (RL) da obiettivi verificabili, e il ridimensionamento al momento del test (TTS) attraverso un calcolo inferenziale potenziato. Presentiamo una tassonomia strutturata che chiarisce i ruoli, le interconnessioni e gli adattamenti specifici per il video di queste tecniche, affrontando sfide uniche come la localizzazione temporale, l'ancoraggio spaziotemporale, l'efficienza nei video lunghi e l'integrazione di evidenze multimodali. Attraverso un'analisi sistematica dei metodi rappresentativi, sintetizziamo principi di progettazione chiave, intuizioni e protocolli di valutazione, identificando al contempo sfide aperte cruciali nella progettazione delle ricompense, nella scalabilità e nell'ottimizzazione costo-prestazioni. Inoltre, curiamo benchmark, dataset e metriche essenziali per facilitare una valutazione rigorosa dell'efficacia del post-training. Questa rassegna mira a fornire ai ricercatori e ai professionisti un quadro unificato per avanzare le capacità dei Video-LMM. Risorse aggiuntive e aggiornamenti sono mantenuti all'indirizzo: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
English
Video understanding represents the most challenging frontier in computer vision, requiring models to reason about complex spatiotemporal relationships, long-term dependencies, and multimodal evidence. The recent emergence of Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders with powerful decoder-based language models, has demonstrated remarkable capabilities in video understanding tasks. However, the critical phase that transforms these models from basic perception systems into sophisticated reasoning engines, post-training, remains fragmented across the literature. This survey provides the first comprehensive examination of post-training methodologies for Video-LMMs, encompassing three fundamental pillars: supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL) from verifiable objectives, and test-time scaling (TTS) through enhanced inference computation. We present a structured taxonomy that clarifies the roles, interconnections, and video-specific adaptations of these techniques, addressing unique challenges such as temporal localization, spatiotemporal grounding, long video efficiency, and multimodal evidence integration. Through systematic analysis of representative methods, we synthesize key design principles, insights, and evaluation protocols while identifying critical open challenges in reward design, scalability, and cost-performance optimization. We further curate essential benchmarks, datasets, and metrics to facilitate rigorous assessment of post-training effectiveness. This survey aims to provide researchers and practitioners with a unified framework for advancing Video-LMM capabilities. Additional resources and updates are maintained at: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
PDF452October 7, 2025