Gains temporels, coûts spatiaux : Réexamen du fine-tuning vidéo dans les modèles de langage multimodaux de grande taille

Résumé

Les grands modèles de langage multimodaux (MLLM) sont généralement entraînés en plusieurs étapes, l'affinage supervisé basé sur la vidéo (Video-SFT) constituant une étape clé pour améliorer la compréhension visuelle. Pourtant, son effet sur l'évolution fine des capacités visuelles, en particulier l'équilibre entre la compréhension spatiale et temporelle, reste mal compris. Dans cet article, nous étudions systématiquement comment le Video-SFT reconfigure les capacités visuelles des MLLM. Quelles que soient les architectures, les échelles de paramètres et les stratégies d'échantillonnage de trames, nous observons un schéma constant : le Video-SFT améliore de manière fiable les performances vidéo, mais produit souvent des gains limités, voire une dégradation, sur les benchmarks d'images statiques. Nous montrons en outre que ce compromis est étroitement lié au budget temporel : augmenter le nombre de trames échantillonnées améliore généralement les performances vidéo, mais n'améliore pas de manière fiable les performances sur les images statiques. Motivés par cette observation, nous étudions une stratégie Hybride-Trames sensible aux instructions qui alloue de manière adaptative le nombre de trames et atténue partiellement le compromis image-vidéo. Nos résultats indiquent que le Video-SFT n'est pas une solution miracle pour les MLLM, et que la préservation de la compréhension spatiale reste un défi central dans l'entraînement conjoint image-vidéo.

English

Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.

Gains temporels, coûts spatiaux : Réexamen du fine-tuning vidéo dans les modèles de langage multimodaux de grande taille

Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Résumé

Support