Временные выигрыши, пространственные издержки: переосмысление тонкой настройки видео в мультимодальных больших языковых моделях
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models
March 18, 2026
Авторы: Linghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) обычно обучаются в несколько этапов, причем контролируемая тонкая настройка на видео (Video-SFT) служит ключевым шагом для улучшения визуального понимания. Однако ее влияние на тонкую эволюцию визуальных способностей, в частности на баланс между пространственным и временным пониманием, остается малоизученным. В данной статье мы систематически исследуем, как Video-SFT преобразует визуальные возможности MLLM. На различных архитектурах, масштабах параметров и настройках сэмплирования кадров мы наблюдаем устойчивую закономерность: Video-SFT надежно улучшает производительность на видео, но часто дает ограниченный выигрыш или даже приводит к деградации на бенчмарках со статичными изображениями. Мы further показываем, что этот компромисс тесно связан с временным бюджетом: увеличение количества сэмплируемых кадров обычно улучшает работу с видео, но не обеспечивает надежного улучшения производительности на статичных изображениях. Мотивированные этим открытием, мы исследуем стратегию Hybrid-Frame, учитывающую инструкции, которая адаптивно распределяет количество кадров и частично смягчает компромисс между изображением и видео. Наши результаты указывают на то, что Video-SFT не является панацеей для MLLM, и сохранение пространственного понимания остается центральной проблемой при совместном обучении на изображениях и видео.
English
Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.