ChatPaper.aiChatPaper

Post-formation des modèles multimodaux de grande taille pour la vidéo : une exploration approfondie du raisonnement vidéo

Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

October 6, 2025
papers.authors: Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
cs.AI

papers.abstract

La compréhension vidéo représente la frontière la plus exigeante en vision par ordinateur, nécessitant des modèles capables de raisonner sur des relations spatiotemporelles complexes, des dépendances à long terme et des preuves multimodales. L'émergence récente des modèles multimodaux de grande taille pour la vidéo (Video-LMMs), qui intègrent des encodeurs visuels avec des modèles de langage basés sur des décodeurs puissants, a démontré des capacités remarquables dans les tâches de compréhension vidéo. Cependant, la phase critique qui transforme ces modèles de systèmes de perception basiques en moteurs de raisonnement sophistiqués, à savoir l'après-entraînement, reste fragmentée dans la littérature. Cette étude propose le premier examen complet des méthodologies d'après-entraînement pour les Video-LMMs, englobant trois piliers fondamentaux : le réglage fin supervisé (SFT) avec chaîne de pensée, l'apprentissage par renforcement (RL) à partir d'objectifs vérifiables, et la mise à l'échelle au moment du test (TTS) via un calcul d'inférence amélioré. Nous présentons une taxonomie structurée qui clarifie les rôles, les interconnexions et les adaptations spécifiques à la vidéo de ces techniques, en abordant des défis uniques tels que la localisation temporelle, l'ancrage spatiotemporel, l'efficacité pour les vidéos longues et l'intégration de preuves multimodales. À travers une analyse systématique des méthodes représentatives, nous synthétisons les principes de conception clés, les insights et les protocoles d'évaluation tout en identifiant les défis ouverts critiques dans la conception des récompenses, la scalabilité et l'optimisation coût-performance. Nous avons également sélectionné des benchmarks, des jeux de données et des métriques essentiels pour faciliter une évaluation rigoureuse de l'efficacité de l'après-entraînement. Cette étude vise à fournir aux chercheurs et aux praticiens un cadre unifié pour faire progresser les capacités des Video-LMMs. Des ressources supplémentaires et des mises à jour sont maintenues à l'adresse suivante : https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
English
Video understanding represents the most challenging frontier in computer vision, requiring models to reason about complex spatiotemporal relationships, long-term dependencies, and multimodal evidence. The recent emergence of Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders with powerful decoder-based language models, has demonstrated remarkable capabilities in video understanding tasks. However, the critical phase that transforms these models from basic perception systems into sophisticated reasoning engines, post-training, remains fragmented across the literature. This survey provides the first comprehensive examination of post-training methodologies for Video-LMMs, encompassing three fundamental pillars: supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL) from verifiable objectives, and test-time scaling (TTS) through enhanced inference computation. We present a structured taxonomy that clarifies the roles, interconnections, and video-specific adaptations of these techniques, addressing unique challenges such as temporal localization, spatiotemporal grounding, long video efficiency, and multimodal evidence integration. Through systematic analysis of representative methods, we synthesize key design principles, insights, and evaluation protocols while identifying critical open challenges in reward design, scalability, and cost-performance optimization. We further curate essential benchmarks, datasets, and metrics to facilitate rigorous assessment of post-training effectiveness. This survey aims to provide researchers and practitioners with a unified framework for advancing Video-LMM capabilities. Additional resources and updates are maintained at: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
PDF422October 7, 2025