Video-LMM Post-Training: Een Diepgaande Verkenning van Videoredenering met Grote Multimodale Modellen

Samenvatting

Video understanding vertegenwoordigt de meest uitdagende grens in computervisie, waarbij modellen moeten redeneren over complexe spatiotemporele relaties, langetermijnafhankelijkheden en multimodale bewijzen. De recente opkomst van Video-Large Multimodal Models (Video-LMMs), die visuele encoders integreren met krachtige decoder-gebaseerde taalmodelen, heeft opmerkelijke capaciteiten getoond in video understanding taken. Echter, de cruciale fase die deze modellen transformeert van basale perceptiesystemen naar geavanceerde redeneermachines, post-training, blijft gefragmenteerd in de literatuur. Deze survey biedt het eerste uitgebreide onderzoek naar post-training methodologieën voor Video-LMMs, waarbij drie fundamentele pijlers worden behandeld: supervised fine-tuning (SFT) met chain-of-thought, reinforcement learning (RL) vanuit verifieerbare doelstellingen, en test-time scaling (TTS) door verbeterde inferentieberekening. We presenteren een gestructureerde taxonomie die de rollen, onderlinge verbindingen en video-specifieke aanpassingen van deze technieken verduidelijkt, en unieke uitdagingen aanpakt zoals temporele lokalisatie, spatiotemporele verankering, efficiëntie bij lange video's en integratie van multimodale bewijzen. Door systematische analyse van representatieve methoden, synthetiseren we belangrijke ontwerp principes, inzichten en evaluatieprotocollen, terwijl we kritieke open uitdagingen identificeren in beloningsontwerp, schaalbaarheid en kosten-prestatieoptimalisatie. We stellen verder essentiële benchmarks, datasets en metrieken samen om een rigoureuze beoordeling van de effectiviteit van post-training te vergemakkelijken. Deze survey heeft als doel onderzoekers en praktijkmensen een uniform raamwerk te bieden voor het bevorderen van de capaciteiten van Video-LMMs. Aanvullende bronnen en updates worden onderhouden op: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training

English

Video understanding represents the most challenging frontier in computer vision, requiring models to reason about complex spatiotemporal relationships, long-term dependencies, and multimodal evidence. The recent emergence of Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders with powerful decoder-based language models, has demonstrated remarkable capabilities in video understanding tasks. However, the critical phase that transforms these models from basic perception systems into sophisticated reasoning engines, post-training, remains fragmented across the literature. This survey provides the first comprehensive examination of post-training methodologies for Video-LMMs, encompassing three fundamental pillars: supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL) from verifiable objectives, and test-time scaling (TTS) through enhanced inference computation. We present a structured taxonomy that clarifies the roles, interconnections, and video-specific adaptations of these techniques, addressing unique challenges such as temporal localization, spatiotemporal grounding, long video efficiency, and multimodal evidence integration. Through systematic analysis of representative methods, we synthesize key design principles, insights, and evaluation protocols while identifying critical open challenges in reward design, scalability, and cost-performance optimization. We further curate essential benchmarks, datasets, and metrics to facilitate rigorous assessment of post-training effectiveness. This survey aims to provide researchers and practitioners with a unified framework for advancing Video-LMM capabilities. Additional resources and updates are maintained at: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training

Video-LMM Post-Training: Een Diepgaande Verkenning van Videoredenering met Grote Multimodale Modellen

Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

Samenvatting

Support