ChatPaper.aiChatPaper

Tarsier2: Het bevorderen van grote visie-taalmodellen van gedetailleerde videobeschrijving naar uitgebreid videobegrip

Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

January 14, 2025
Auteurs: Liping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin
cs.AI

Samenvatting

We introduceren Tarsier2, een toonaangevend groot visie-taalmodel (LVLM) ontworpen voor het genereren van gedetailleerde en nauwkeurige videobeschrijvingen, terwijl het ook superieure algemene videobegripscapaciteiten vertoont. Tarsier2 boekt aanzienlijke vooruitgang door drie belangrijke upgrades: (1) Het schalen van pre-training data van 11M naar 40M video-tekstparen, waardoor zowel de hoeveelheid als de diversiteit wordt verrijkt; (2) Het uitvoeren van fijnmazige temporele afstemming tijdens begeleid fijnafstemmen; (3) Het gebruik van op model gebaseerde steekproeven om automatisch voorkeursgegevens te construeren en het toepassen van DPO-training voor optimalisatie. Uitgebreide experimenten tonen aan dat Tarsier2-7B consequent beter presteert dan toonaangevende gepatenteerde modellen, waaronder GPT-4o en Gemini 1.5 Pro, in gedetailleerde videobeschrijvingstaken. Op de DREAM-1K benchmark verbetert Tarsier2-7B de F1 met 2.8\% ten opzichte van GPT-4o en met 5.8\% ten opzichte van Gemini-1.5-Pro. In menselijke zij-aan-zij evaluaties toont Tarsier2-7B een prestatievoordeel van +8.6\% ten opzichte van GPT-4o en +24.9\% ten opzichte van Gemini-1.5-Pro. Tarsier2-7B zet ook nieuwe state-of-the-art resultaten neer over 15 openbare benchmarks, variërend van taken zoals videovraagbeantwoording, videoverankering, hallucinatietest en belichaamde vraagbeantwoording, waarbij het zijn veelzijdigheid als een robuust algemeen visie-taalmodel aantoont.
English
We introduce Tarsier2, a state-of-the-art large vision-language model (LVLM) designed for generating detailed and accurate video descriptions, while also exhibiting superior general video understanding capabilities. Tarsier2 achieves significant advancements through three key upgrades: (1) Scaling pre-training data from 11M to 40M video-text pairs, enriching both volume and diversity; (2) Performing fine-grained temporal alignment during supervised fine-tuning; (3) Using model-based sampling to automatically construct preference data and applying DPO training for optimization. Extensive experiments show that Tarsier2-7B consistently outperforms leading proprietary models, including GPT-4o and Gemini 1.5 Pro, in detailed video description tasks. On the DREAM-1K benchmark, Tarsier2-7B improves F1 by 2.8\% over GPT-4o and 5.8\% over Gemini-1.5-Pro. In human side-by-side evaluations, Tarsier2-7B shows a +8.6\% performance advantage over GPT-4o and +24.9\% over Gemini-1.5-Pro. Tarsier2-7B also sets new state-of-the-art results across 15 public benchmarks, spanning tasks such as video question-answering, video grounding, hallucination test, and embodied question-answering, demonstrating its versatility as a robust generalist vision-language model.

Summary

AI-Generated Summary

PDF152January 15, 2025