Ganancias Temporales, Costos Espaciales: Reexaminando el Fine-Tuning de Video en Modelos de Lenguaje Grandes Multimodales
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models
March 18, 2026
Autores: Linghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu
cs.AI
Resumen
Los modelos de lenguaje multimodal (MLLM) se entrenan típicamente en múltiples etapas, donde el ajuste fino supervisado basado en vídeo (Video-SFT) constituye un paso clave para mejorar la comprensión visual. Sin embargo, su efecto en la evolución detallada de las capacidades visuales, particularmente el equilibrio entre la comprensión espacial y temporal, sigue siendo poco comprendido. En este artículo, estudiamos sistemáticamente cómo el Video-SFT remodela las capacidades visuales en los MLLM. A través de diversas arquitecturas, escalas de parámetros y configuraciones de muestreo de fotogramas, observamos un patrón consistente: el Video-SFT mejora de forma fiable el rendimiento en vídeo, pero a menudo produce ganancias limitadas o incluso degradación en puntos de referencia de imágenes estáticas. Demostramos además que esta disyuntiva está estrechamente ligada al presupuesto temporal: aumentar el número de fotogramas muestreados generalmente mejora el rendimiento en vídeo, pero no mejora de forma confiable el rendimiento en imágenes estáticas. Motivados por este hallazgo, estudiamos una estrategia Híbrida de Fotogramas consciente de la instrucción que asigna adaptivamente el número de fotogramas y mitiga parcialmente la disyuntiva imagen-vídeo. Nuestros resultados indican que el Video-SFT no es una solución gratuita para los MLLM, y que preservar la comprensión espacial sigue siendo un desafío central en el entrenamiento conjunto de imagen y vídeo.
English
Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.