Ganhos Temporais, Custos Espaciais: Revisitando o Fine-Tuning de Vídeo em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Os modelos de linguagem multimodal (MLLMs) são tipicamente treinados em múltiplas etapas, com o ajuste fino supervisionado baseado em vídeo (Video-SFT) servindo como um passo-chave para melhorar a compreensão visual. No entanto, o seu efeito na evolução detalhada das capacidades visuais, particularmente o equilíbrio entre a compreensão espacial e temporal, permanece pouco compreendido. Neste artigo, estudamos sistematicamente como o Video-SFT remodela as capacidades visuais nos MLLMs. Através de arquiteturas, escalas de parâmetros e configurações de amostragem de frames, observamos um padrão consistente: o Video-SFT melhora de forma confiável o desempenho em vídeo, mas frequentemente produz ganhos limitados ou mesmo degradação em benchmarks de imagens estáticas. Mostramos ainda que este compromisso está intimamente ligado ao orçamento temporal: aumentar o número de frames amostrados geralmente melhora o desempenho em vídeo, mas não melhora de forma confiável o desempenho em imagens estáticas. Motivados por esta descoberta, estudamos uma estratégia Híbrida de Frames com consciência da instrução que aloca adaptativamente as contagens de frames e mitiga parcialmente o compromisso imagem-vídeo. Os nossos resultados indicam que o Video-SFT não é uma solução gratuita para os MLLMs, e a preservação da compreensão espacial permanece um desafio central no treino conjunto de imagem e vídeo.

English

Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.

Ganhos Temporais, Custos Espaciais: Revisitando o Fine-Tuning de Vídeo em Modelos de Linguagem Multimodais de Grande Escala

Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Resumo

Support