Посттренировка Video-LMM: глубокое погружение в анализ видео с использованием крупных мультимодальных моделей
Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models
October 6, 2025
Авторы: Yunlong Tang, Jing Bi, Pinxin Liu, Zhenyu Pan, Zhangyun Tan, Qianxiang Shen, Jiani Liu, Hang Hua, Junjia Guo, Yunzhong Xiao, Chao Huang, Zhiyuan Wang, Susan Liang, Xinyi Liu, Yizhi Song, Yuhe Nie, Jia-Xing Zhong, Bozheng Li, Daiqing Qi, Ziyun Zeng, Ali Vosoughi, Luchuan Song, Zeliang Zhang, Daiki Shimada, Han Liu, Jiebo Luo, Chenliang Xu
cs.AI
Аннотация
Понимание видео представляет собой наиболее сложный рубеж в области компьютерного зрения, требуя от моделей способности анализировать сложные пространственно-временные взаимосвязи, долгосрочные зависимости и мультимодальные данные. Недавнее появление крупных мультимодальных моделей для видео (Video-LMMs), которые объединяют визуальные кодировщики с мощными декодерными языковыми моделями, продемонстрировало впечатляющие возможности в задачах понимания видео. Однако критический этап, который превращает эти модели из базовых систем восприятия в сложные механизмы рассуждения — пост-обучение — остается фрагментированным в научной литературе. Данный обзор представляет первое всестороннее исследование методологий пост-обучения для Video-LMMs, охватывающее три фундаментальных направления: контролируемое тонкое настройка (SFT) с использованием цепочки рассуждений, обучение с подкреплением (RL) на основе проверяемых целей и масштабирование на этапе тестирования (TTS) через улучшенные вычислительные ресурсы для вывода. Мы предлагаем структурированную таксономию, которая проясняет роли, взаимосвязи и видео-специфические адаптации этих методов, решая уникальные задачи, такие как временная локализация, пространственно-временное обоснование, эффективность обработки длинных видео и интеграция мультимодальных данных. Путем систематического анализа репрезентативных методов мы синтезируем ключевые принципы проектирования, инсайты и протоколы оценки, одновременно выделяя важные открытые проблемы в области проектирования наград, масштабируемости и оптимизации соотношения затрат и производительности. Мы также подбираем ключевые бенчмарки, наборы данных и метрики для обеспечения строгой оценки эффективности пост-обучения. Этот обзор призван предоставить исследователям и практикам единую структуру для развития возможностей Video-LMM. Дополнительные ресурсы и обновления поддерживаются по адресу: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training.
English
Video understanding represents the most challenging frontier in computer
vision, requiring models to reason about complex spatiotemporal relationships,
long-term dependencies, and multimodal evidence. The recent emergence of
Video-Large Multimodal Models (Video-LMMs), which integrate visual encoders
with powerful decoder-based language models, has demonstrated remarkable
capabilities in video understanding tasks. However, the critical phase that
transforms these models from basic perception systems into sophisticated
reasoning engines, post-training, remains fragmented across the literature.
This survey provides the first comprehensive examination of post-training
methodologies for Video-LMMs, encompassing three fundamental pillars:
supervised fine-tuning (SFT) with chain-of-thought, reinforcement learning (RL)
from verifiable objectives, and test-time scaling (TTS) through enhanced
inference computation. We present a structured taxonomy that clarifies the
roles, interconnections, and video-specific adaptations of these techniques,
addressing unique challenges such as temporal localization, spatiotemporal
grounding, long video efficiency, and multimodal evidence integration. Through
systematic analysis of representative methods, we synthesize key design
principles, insights, and evaluation protocols while identifying critical open
challenges in reward design, scalability, and cost-performance optimization. We
further curate essential benchmarks, datasets, and metrics to facilitate
rigorous assessment of post-training effectiveness. This survey aims to provide
researchers and practitioners with a unified framework for advancing Video-LMM
capabilities. Additional resources and updates are maintained at:
https://github.com/yunlong10/Awesome-Video-LMM-Post-Training