Tijdelijke Winst, Ruimtelijke Kosten: Een Herziening van Video-Finetuning in Multimodale Grote Taalmodellen

Samenvatting

Multimodale grote taalmodellen (MLLM's) worden doorgaans in meerdere fasen getraind, waarbij op video gebaseerde supervised fine-tuning (Video-SFT) een cruciale stap vormt voor het verbeteren van visueel begrip. Desalniettemin is het effect ervan op de fijnmazige evolutie van visuele capaciteiten, met name de balans tussen ruimtelijk en temporeel begrip, nog steeds slecht begrepen. In dit artikel bestuderen we systematisch hoe Video-SFT visuele capaciteiten in MLLM's hervormt. Over verschillende architecturen, parameterschalen en frame-samplinginstellingen observeren we een consistent patroon: Video-SFT verbetert betrouwbaar de videoprestaties, maar levert vaak beperkte winst of zelfs degradatie op bij statische beeldbenchmarks. We tonen verder aan dat deze wisselwerking nauw verbonden is met het temporele budget: het verhogen van het aantal bemonsterde frames verbetert over het algemeen de videoprestaties, maar verbetert niet betrouwbaar de prestaties op statische beelden. Gemotiveerd door deze bevinding bestuderen we een instructiebewuste Hybrid-Frame-strategie die adaptief het aantal frames toewijst en de beeld-video-wisselwerking gedeeltelijk mitigeert. Onze resultaten geven aan dat Video-SFT geen gratis lunch is voor MLLM's, en dat het behouden van ruimtelijk begrip een centrale uitdaging blijft bij gezamenlijke beeld-video-training.

English

Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.

Tijdelijke Winst, Ruimtelijke Kosten: Een Herziening van Video-Finetuning in Multimodale Grote Taalmodellen

Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Samenvatting

Support