Временные выигрыши, пространственные издержки: переосмысление тонкой настройки видео в мультимодальных больших языковых моделях

Аннотация

Мультимодальные большие языковые модели (MLLM) обычно обучаются в несколько этапов, причем контролируемая тонкая настройка на видео (Video-SFT) служит ключевым шагом для улучшения визуального понимания. Однако ее влияние на тонкую эволюцию визуальных способностей, в частности на баланс между пространственным и временным пониманием, остается малоизученным. В данной статье мы систематически исследуем, как Video-SFT преобразует визуальные возможности MLLM. На различных архитектурах, масштабах параметров и настройках сэмплирования кадров мы наблюдаем устойчивую закономерность: Video-SFT надежно улучшает производительность на видео, но часто дает ограниченный выигрыш или даже приводит к деградации на бенчмарках со статичными изображениями. Мы further показываем, что этот компромисс тесно связан с временным бюджетом: увеличение количества сэмплируемых кадров обычно улучшает работу с видео, но не обеспечивает надежного улучшения производительности на статичных изображениях. Мотивированные этим открытием, мы исследуем стратегию Hybrid-Frame, учитывающую инструкции, которая адаптивно распределяет количество кадров и частично смягчает компромисс между изображением и видео. Наши результаты указывают на то, что Video-SFT не является панацеей для MLLM, и сохранение пространственного понимания остается центральной проблемой при совместном обучении на изображениях и видео.

English

Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.

Временные выигрыши, пространственные издержки: переосмысление тонкой настройки видео в мультимодальных больших языковых моделях

Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Аннотация

Support