Guadagni Temporali, Costi Spaziali: Un Riesame del Fine-Tuning Video nei Modelli Linguistici Multimodali di Grande Dimensione

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) vengono tipicamente addestrati in più fasi, con l'ottimizzazione supervisionata basata su video (Video-SFT) che rappresenta un passaggio chiave per migliorare la comprensione visiva. Tuttavia, il suo effetto sull'evoluzione granulare delle capacità visive, in particolare l'equilibrio tra comprensione spaziale e temporale, rimane poco compreso. In questo articolo, studiamo sistematicamente come il Video-SFT rimodelli le capacità visive negli MLLM. Attraverso diverse architetture, scale parametriche e impostazioni di campionamento dei fotogrammi, osserviamo uno schema coerente: il Video-SFT migliora affidabilmente le prestazioni sui video, ma spesso produce guadagni limitati o addirittura un degrado sui benchmark di immagini statiche. Dimostriamo inoltre che questo compromesso è strettamente legato al budget temporale: aumentare il numero di fotogrammi campionati generalmente migliora le prestazioni video, ma non migliora in modo affidabile le prestazioni su immagini statiche. Sulla base di questa scoperta, studiamo una strategia Ibrida a Fotogrammi consapevole delle istruzioni che assegna adattivamente il numero di fotogrammi e mitiga parzialmente il compromesso immagine-video. I nostri risultati indicano che il Video-SFT non è una soluzione gratuita per gli MLLM, e la preservazione della comprensione spaziale rimane una sfida centrale nell'addestramento congiunto su immagini e video.

English

Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.

Guadagni Temporali, Costi Spaziali: Un Riesame del Fine-Tuning Video nei Modelli Linguistici Multimodali di Grande Dimensione

Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Abstract

Support