VideoGLUE: Evaluatie van Algemeen Begrip van Video's door Fundamentemodellen

Samenvatting

We evalueren de video-begripcapaciteiten van bestaande foundation models aan de hand van een zorgvuldig ontworpen experimentprotocol dat bestaat uit drie kenmerkende taken (actieherkenning, temporele lokalisatie en spatiotemporele lokalisatie), acht datasets die goed ontvangen zijn door de gemeenschap, en vier aanpassingsmethoden om een foundation model (FM) af te stemmen op een downstreamtaak. Bovendien stellen we een scalaire VideoGLUE-score (VGS) voor om de effectiviteit en efficiëntie van een FM te meten bij het aanpassen aan algemene video-begriptaken. Onze belangrijkste bevindingen zijn als volgt. Ten eerste presteren taakspecifieke modellen aanzienlijk beter dan de zes FM's die in dit werk zijn bestudeerd, in scherp contrast met wat FM's hebben bereikt in natuurlijke taal- en beeldbegrip. Ten tweede zijn video-native FM's, waarvan de vooraf getrainde gegevens de videomodaliteit bevatten, over het algemeen beter dan beeld-native FM's in het classificeren van bewegingrijke video's, het lokaliseren van acties in de tijd, en het begrijpen van een video met meer dan één actie. Ten derde kunnen de video-native FM's goed presteren op videotaken onder lichte aanpassingen aan downstreamtaken (bijvoorbeeld het bevriezen van de FM-backbones), terwijl beeld-native FM's winnen bij volledige end-to-end finetuning. De eerste twee observaties onthullen de noodzaak en enorme mogelijkheden om onderzoek te doen naar video-gerichte FM's, en de laatste bevestigt dat zowel taken als aanpassingsmethoden van belang zijn als het gaat om de evaluatie van FM's.

English

We evaluate existing foundation models video understanding capabilities using a carefully designed experiment protocol consisting of three hallmark tasks (action recognition, temporal localization, and spatiotemporal localization), eight datasets well received by the community, and four adaptation methods tailoring a foundation model (FM) for a downstream task. Moreover, we propose a scalar VideoGLUE score (VGS) to measure an FMs efficacy and efficiency when adapting to general video understanding tasks. Our main findings are as follows. First, task-specialized models significantly outperform the six FMs studied in this work, in sharp contrast to what FMs have achieved in natural language and image understanding. Second,video-native FMs, whose pretraining data contains the video modality, are generally better than image-native FMs in classifying motion-rich videos, localizing actions in time, and understanding a video of more than one action. Third, the video-native FMs can perform well on video tasks under light adaptations to downstream tasks(e.g., freezing the FM backbones), while image-native FMs win in full end-to-end finetuning. The first two observations reveal the need and tremendous opportunities to conduct research on video-focused FMs, and the last confirms that both tasks and adaptation methods matter when it comes to the evaluation of FMs.

VideoGLUE: Evaluatie van Algemeen Begrip van Video's door Fundamentemodellen

VideoGLUE: Video General Understanding Evaluation of Foundation Models

Samenvatting

Support