Zeitliche Gewinne, räumliche Kosten: Eine Neubetrachtung der Video-Feinabstimmung in multimodalen großen Sprachmodellen

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) werden typischerweise in mehreren Stufen trainiert, wobei die auf Videos basierende überwachte Feinabstimmung (Video-SFT) einen entscheidenden Schritt zur Verbesserung des visuellen Verständnisses darstellt. Dennoch ist ihre Wirkung auf die feinkörnige Entwicklung visueller Fähigkeiten, insbesondere das Gleichgewicht zwischen räumlichem und zeitlichem Verständnis, kaum verstanden. In diesem Artikel untersuchen wir systematisch, wie Video-SFT visuelle Fähigkeiten in MLLMs umgestaltet. Über Architekturen, Parameterskalen und Frame-Sampling-Einstellungen hinweg beobachten wir ein konsistentes Muster: Video-SFT verbessert zuverlässig die Videoleistung, führt aber oft nur zu begrenzten Gewinnen oder sogar zu Verschlechterungen bei Benchmarks für statische Bilder. Wir zeigen weiter, dass dieser Kompromiss eng mit dem zeitlichen Budget zusammenhängt: Eine Erhöhung der Anzahl der abgetasteten Frames verbessert generell die Videoleistung, verbessert aber die Leistung bei statischen Bildern nicht zuverlässig. Angeregt durch diese Erkenntnis untersuchen wir eine anweisungsbewusste Hybrid-Frame-Strategie, die Frame-Anzahlen adaptiv zuweist und den Bild-Video-Kompromiss teilweise mildert. Unsere Ergebnisse zeigen, dass Video-SFT kein kostenloser Zugewinn für MLLMs ist und die Bewahrung des räumlichen Verständnisses eine zentrale Herausforderung beim gemeinsamen Bild-Video-Training bleibt.

English

Multimodal large language models (MLLMs) are typically trained in multiple stages, with video-based supervised fine-tuning (Video-SFT) serving as a key step for improving visual understanding. Yet its effect on the fine-grained evolution of visual capabilities, particularly the balance between spatial and temporal understanding, remains poorly understood. In this paper, we systematically study how Video-SFT reshapes visual capabilities in MLLMs. Across architectures, parameter scales, and frame sampling settings, we observe a consistent pattern: Video-SFT reliably improves video performance, but often yields limited gains or even degradation on static image benchmarks. We further show that this trade-off is closely tied to temporal budget: increasing the number of sampled frames generally improves video performance, but does not reliably improve static image performance. Motivated by this finding, we study an instruction-aware Hybrid-Frame strategy that adaptively allocates frame counts and partially mitigates the image-video trade-off. Our results indicate that Video-SFT is not a free lunch for MLLMs, and preserving spatial understanding remains a central challenge in joint image-video training.

Zeitliche Gewinne, räumliche Kosten: Eine Neubetrachtung der Video-Feinabstimmung in multimodalen großen Sprachmodellen

Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Zusammenfassung

Support