ChatPaper.aiChatPaper

HAIC: Verbetering van Menselijke Actiebegrip en Generatie met Betere Bijschriften voor Multi-modale Grote Taalmodellen

HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

February 28, 2025
Auteurs: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie
cs.AI

Samenvatting

Recente Multi-modale Grote Taalmodellen (MLLMs) hebben grote vooruitgang geboekt in videobegrip. Hun prestaties op video's met menselijke acties zijn echter nog steeds beperkt door het gebrek aan hoogwaardige data. Om dit aan te pakken, introduceren we een tweestaps data-annotatiepijplijn. Eerst ontwerpen we strategieën om video's met duidelijke menselijke acties van het internet te verzamelen. Vervolgens worden de video's geannoteerd in een gestandaardiseerd bijschriftformaat dat menselijke attributen gebruikt om individuen te onderscheiden en hun acties en interacties chronologisch te beschrijven. Via deze pijplijn hebben we twee datasets samengesteld, namelijk HAICTrain en HAICBench. HAICTrain bestaat uit 126K video-bijschriftparen die zijn gegenereerd door Gemini-Pro en geverifieerd voor trainingsdoeleinden. HAICBench omvat daarentegen 500 handmatig geannoteerde video-bijschriftparen en 1.400 vraag-antwoordparen, voor een uitgebreide evaluatie van het begrip van menselijke acties. Experimentele resultaten tonen aan dat trainen met HAICTrain niet alleen het menselijk begrip aanzienlijk verbetert over 4 benchmarks, maar ook de resultaten van tekst-naar-video-generatie kan verbeteren. Zowel HAICTrain als HAICBench zijn vrijgegeven op https://huggingface.co/datasets/KuaishouHAIC/HAIC.
English
Recent Multi-modal Large Language Models (MLLMs) have made great progress in video understanding. However, their performance on videos involving human actions is still limited by the lack of high-quality data. To address this, we introduce a two-stage data annotation pipeline. First, we design strategies to accumulate videos featuring clear human actions from the Internet. Second, videos are annotated in a standardized caption format that uses human attributes to distinguish individuals and chronologically details their actions and interactions. Through this pipeline, we curate two datasets, namely HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs generated by Gemini-Pro and verified for training purposes. Meanwhile, HAICBench includes 500 manually annotated video-caption pairs and 1,400 QA pairs, for a comprehensive evaluation of human action understanding. Experimental results demonstrate that training with HAICTrain not only significantly enhances human understanding abilities across 4 benchmarks, but can also improve text-to-video generation results. Both the HAICTrain and HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.

Summary

AI-Generated Summary

PDF22March 3, 2025