Post-formation des modèles multimodaux de grande taille pour la vidéo : une exploration approfondie du raisonnement vidéo
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models
October 6, 2025
papers.authors: Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
cs.AI
papers.abstract
La compréhension vidéo représente la frontière la plus exigeante en vision par ordinateur, nécessitant des modèles capables de raisonner sur des relations spatiotemporelles complexes, des dépendances à long terme et des preuves multimodales. L'émergence récente des modèles multimodaux de grande taille pour la vidéo (Video-LMMs), qui intègrent des encodeurs visuels avec des modèles de langage basés sur des décodeurs puissants, a démontré des capacités remarquables dans les tâches de compréhension vidéo. Cependant, la phase critique qui transforme ces modèles de systèmes de perception basiques en moteurs de raisonnement sophistiqués, à savoir l'après-entraînement, reste fragmentée dans la littérature. Cette étude propose le premier examen complet des méthodologies d'après-entraînement pour les Video-LMMs, englobant trois piliers fondamentaux : le réglage fin supervisé (SFT) avec chaîne de pensée, l'apprentissage par renforcement (RL) à partir d'objectifs vérifiables, et la mise à l'échelle au moment du test (TTS) via un calcul d'inférence amélioré. Nous présentons une taxonomie structurée qui clarifie les rôles, les interconnexions et les adaptations spécifiques à la vidéo de ces techniques, en abordant des défis uniques tels que la localisation temporelle, l'ancrage spatiotemporel, l'efficacité pour les vidéos longues et l'intégration de preuves multimodales. À travers une analyse systématique des méthodes représentatives, nous synthétisons les principes de conception clés, les insights et les protocoles d'évaluation tout en identifiant les défis ouverts critiques dans la conception des récompenses, la scalabilité et l'optimisation coût-performance. Nous avons également sélectionné des benchmarks, des jeux de données et des métriques essentiels pour faciliter une évaluation rigoureuse de l'efficacité de l'après-entraînement. Cette étude vise à fournir aux chercheurs et aux praticiens un cadre unifié pour faire progresser les capacités des Video-LMMs. Des ressources supplémentaires et des mises à jour sont maintenues à l'adresse suivante : https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
English
Video understanding represents the most challenging frontier in computer
vision, requiring models to reason about complex spatiotemporal relationships,
long-term dependencies, and multimodal evidence. The recent emergence of
Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders
with powerful decoder-based language models, has demonstrated remarkable
capabilities in video understanding tasks. However, the critical phase that
transforms these models from basic perception systems into sophisticated
reasoning engines, post-training, remains fragmented across the literature.
This survey provides the first comprehensive examination of post-training
methodologies for Video-LMMs, encompassing three fundamental pillars:
supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL)
from verifiable objectives, and test-time scaling (TTS) through enhanced
inference computation. We present a structured taxonomy that clarifies the
roles, interconnections, and video-specific adaptations of these techniques,
addressing unique challenges such as temporal localization, spatiotemporal
grounding, long video efficiency, and multimodal evidence integration. Through
systematic analysis of representative methods, we synthesize key design
principles, insights, and evaluation protocols while identifying critical open
challenges in reward design, scalability, and cost-performance optimization. We
further curate essential benchmarks, datasets, and metrics to facilitate
rigorous assessment of post-training effectiveness. This survey aims to provide
researchers and practitioners with a unified framework for advancing Video-LMM
capabilities. Additional resources and updates are maintained at:
https://github.com/yunlong10/Awesome-Video-LMM-Post-Training