Ganhos Temporais, Custos Espaciais: Revisitando o Fine-Tuning de Vídeo em Modelos de Linguagem Multimodais de Grande Escala
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models
March 18, 2026
Autores: Linghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu
cs.AI
Resumo
Os modelos de linguagem multimodal (MLLMs) são tipicamente treinados em múltiplas etapas, com o ajuste fino supervisionado baseado em vídeo (Video-SFT) servindo como um passo-chave para melhorar a compreensão visual. No entanto, o seu efeito na evolução detalhada das capacidades visuais, particularmente o equilíbrio entre a compreensão espacial e temporal, permanece pouco compreendido. Neste artigo, estudamos sistematicamente como o Video-SFT remodela as capacidades visuais nos MLLMs. Através de arquiteturas, escalas de parâmetros e configurações de amostragem de frames, observamos um padrão consistente: o Video-SFT melhora de forma confiável o desempenho em vídeo, mas frequentemente produz ganhos limitados ou mesmo degradação em benchmarks de imagens estáticas. Mostramos ainda que este compromisso está intimamente ligado ao orçamento temporal: aumentar o número de frames amostrados geralmente melhora o desempenho em vídeo, mas não melhora de forma confiável o desempenho em imagens estáticas. Motivados por esta descoberta, estudamos uma estratégia Híbrida de Frames com consciência da instrução que aloca adaptativamente as contagens de frames e mitiga parcialmente o compromisso imagem-vídeo. Os nossos resultados indicam que o Video-SFT não é uma solução gratuita para os MLLMs, e a preservação da compreensão espacial permanece um desafio central no treino conjunto de imagem e vídeo.
English
Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.