Video-LMM Nachschulung: Ein tiefer Einblick in die Videoverarbeitung mit großen multimodalen Modellen
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models
October 6, 2025
papers.authors: Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
cs.AI
papers.abstract
Die Videoanalyse stellt die anspruchsvollste Grenze in der Computer Vision dar, da sie von Modellen verlangt, komplexe raumzeitliche Beziehungen, langfristige Abhängigkeiten und multimodale Beweise zu verarbeiten. Das kürzliche Aufkommen von Video-Large Multimodal Models (Video-LMMs), die visuelle Encoder mit leistungsstarken, dekodierbasierten Sprachmodellen integrieren, hat bemerkenswerte Fähigkeiten in der Videoanalyse gezeigt. Dennoch bleibt die kritische Phase, die diese Modelle von einfachen Wahrnehmungssystemen in ausgeklügelte Denkmaschinen verwandelt – das Post-Training – in der Literatur fragmentiert. Diese Übersichtsarbeit bietet die erste umfassende Untersuchung von Post-Training-Methoden für Video-LMMs, die drei grundlegende Säulen umfasst: Supervised Fine-Tuning (SFT) mit Chain-of-Thought, Reinforcement Learning (RL) aus überprüfbaren Zielen und Test-Time Scaling (TTS) durch verbesserte Inferenzberechnung. Wir präsentieren eine strukturierte Taxonomie, die die Rollen, Zusammenhänge und videospezifischen Anpassungen dieser Techniken verdeutlicht und einzigartige Herausforderungen wie zeitliche Lokalisierung, raumzeitliche Verankerung, Effizienz bei langen Videos und die Integration multimodaler Beweise adressiert. Durch systematische Analyse repräsentativer Methoden synthetisieren wir Schlüsselprinzipien, Erkenntnisse und Evaluationsprotokolle und identifizieren kritische offene Herausforderungen in der Belohnungsgestaltung, Skalierbarkeit und Kosten-Leistungs-Optimierung. Darüber hinaus stellen wir wesentliche Benchmarks, Datensätze und Metriken zusammen, um eine rigorose Bewertung der Post-Training-Effektivität zu ermöglichen. Diese Übersichtsarbeit zielt darauf ab, Forschern und Praktikern einen einheitlichen Rahmen zur Weiterentwicklung der Fähigkeiten von Video-LMMs zu bieten. Zusätzliche Ressourcen und Aktualisierungen werden unter folgender Adresse gepflegt: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
English
Video understanding represents the most challenging frontier in computer
vision, requiring models to reason about complex spatiotemporal relationships,
long-term dependencies, and multimodal evidence. The recent emergence of
Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders
with powerful decoder-based language models, has demonstrated remarkable
capabilities in video understanding tasks. However, the critical phase that
transforms these models from basic perception systems into sophisticated
reasoning engines, post-training, remains fragmented across the literature.
This survey provides the first comprehensive examination of post-training
methodologies for Video-LMMs, encompassing three fundamental pillars:
supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL)
from verifiable objectives, and test-time scaling (TTS) through enhanced
inference computation. We present a structured taxonomy that clarifies the
roles, interconnections, and video-specific adaptations of these techniques,
addressing unique challenges such as temporal localization, spatiotemporal
grounding, long video efficiency, and multimodal evidence integration. Through
systematic analysis of representative methods, we synthesize key design
principles, insights, and evaluation protocols while identifying critical open
challenges in reward design, scalability, and cost-performance optimization. We
further curate essential benchmarks, datasets, and metrics to facilitate
rigorous assessment of post-training effectiveness. This survey aims to provide
researchers and practitioners with a unified framework for advancing Video-LMM
capabilities. Additional resources and updates are maintained at:
https://github.com/yunlong10/Awesome-Video-LMM-Post-Training