Tarsier2 : Faire progresser les grands modèles de vision-langage de la description vidéo détaillée à la compréhension vidéo complète
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding
January 14, 2025
Auteurs: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
cs.AI
Résumé
Nous présentons Tarsier2, un modèle de vision-langage de pointe (LVLM) conçu pour générer des descriptions vidéo détaillées et précises, tout en présentant des capacités supérieures de compréhension générale des vidéos. Tarsier2 réalise des avancées significatives grâce à trois mises à niveau clés : (1) l'augmentation des données de pré-entraînement de 11M à 40M de paires vidéo-texte, enrichissant à la fois le volume et la diversité ; (2) l'alignement temporel fin pendant le fine-tuning supervisé ; (3) l'utilisation de l'échantillonnage basé sur le modèle pour construire automatiquement des données de préférence et l'application de l'entraînement DPO pour l'optimisation. Des expériences approfondies montrent que Tarsier2-7B surpasse systématiquement les modèles propriétaires de premier plan, y compris GPT-4o et Gemini 1.5 Pro, dans les tâches de description vidéo détaillée. Sur le banc d'essai DREAM-1K, Tarsier2-7B améliore le score F1 de 2,8\% par rapport à GPT-4o et de 5,8\% par rapport à Gemini-1.5-Pro. Dans les évaluations humaines côte à côte, Tarsier2-7B présente un avantage de performance de +8,6\% par rapport à GPT-4o et de +24,9\% par rapport à Gemini-1.5-Pro. Tarsier2-7B établit également de nouveaux résultats de pointe sur 15 bancs d'essai publics, couvrant des tâches telles que la réponse aux questions vidéo, l'ancrage vidéo, le test d'hallucination et la réponse aux questions incarnées, démontrant sa polyvalence en tant que modèle de vision-langage généraliste robuste.
English
We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM)
designed for generating detailed and accurate video descriptions, while also
exhibiting superior general video understanding capabilities. Tarsier2 achieves
significant advancements through three key upgrades: (1) Scaling pre-training
data from 11M to 40M video-text pairs, enriching both volume and diversity; (2)
Performing fine-grained temporal alignment during supervised fine-tuning; (3)
Using model-based sampling to automatically construct preference data and
applying DPO training for optimization. Extensive experiments show that
Tarsier2-7B consistently outperforms leading proprietary models, including
GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K
benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over
Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\%
performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B
also sets new state-of-the-art results across 15 public benchmarks, spanning
tasks such as video question-answering, video grounding, hallucination test,
and embodied question-answering, demonstrating its versatility as a robust
generalist vision-language model.Summary
AI-Generated Summary