Optimisation des préférences temporelles pour la compréhension des vidéos longues
Temporal Preference Optimization for Long-Form Video Understanding
January 23, 2025
Auteurs: Rui Li, Xiaohan Wang, Yuhui Zhang, Zeyu Wang, Serena Yeung-Levy
cs.AI
Résumé
Malgré les avancées significatives dans les grands modèles multimodaux vidéo (video-LMMs), la réalisation d'un ancrage temporel efficace dans les vidéos longues reste un défi pour les modèles existants. Pour répondre à cette limitation, nous proposons l'Optimisation des Préférences Temporelles (TPO), un nouveau cadre de post-entraînement conçu pour améliorer les capacités d'ancrage temporel des video-LMMs grâce à l'apprentissage des préférences. TPO adopte une approche d'auto-entraînement qui permet aux modèles de différencier les réponses temporelles bien ancrées des réponses moins précises en exploitant des ensembles de données de préférences organisés à deux granularités : l'ancrage temporel localisé, qui se concentre sur des segments vidéo spécifiques, et l'ancrage temporel complet, qui capture les dépendances temporelles étendues à travers l'ensemble des séquences vidéo. En optimisant sur ces ensembles de données de préférences, TPO améliore significativement la compréhension temporelle tout en réduisant la dépendance aux données annotées manuellement. Des expériences approfondies sur trois référentiels d'évaluation de la compréhension vidéo longue durée--LongVideoBench, MLVU, et Video-MME--démontrent l'efficacité de TPO sur deux video-LMMs de pointe. Notamment, LLaVA-Video-TPO s'impose comme le modèle 7B leader sur le référentiel Video-MME, soulignant le potentiel de TPO en tant que solution évolutive et efficace pour faire progresser le raisonnement temporel dans la compréhension vidéo longue durée. Page du projet : https://ruili33.github.io/tpo_website.
English
Despite significant advancements in video large multimodal models
(video-LMMs), achieving effective temporal grounding in long-form videos
remains a challenge for existing models. To address this limitation, we propose
Temporal Preference Optimization (TPO), a novel post-training framework
designed to enhance the temporal grounding capabilities of video-LMMs through
preference learning. TPO adopts a self-training approach that enables models to
differentiate between well-grounded and less accurate temporal responses by
leveraging curated preference datasets at two granularities: localized temporal
grounding, which focuses on specific video segments, and comprehensive temporal
grounding, which captures extended temporal dependencies across entire video
sequences. By optimizing on these preference datasets, TPO significantly
enhances temporal understanding while reducing reliance on manually annotated
data. Extensive experiments on three long-form video understanding
benchmarks--LongVideoBench, MLVU, and Video-MME--demonstrate the effectiveness
of TPO across two state-of-the-art video-LMMs. Notably, LLaVA-Video-TPO
establishes itself as the leading 7B model on the Video-MME benchmark,
underscoring the potential of TPO as a scalable and efficient solution for
advancing temporal reasoning in long-form video understanding. Project page:
https://ruili33.github.io/tpo_website.Summary
AI-Generated Summary