ChatPaper.aiChatPaper

HAIC: Migliorare la comprensione e la generazione di azioni umane con descrizioni migliori per modelli linguistici multimodali di grandi dimensioni

HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

February 28, 2025
Autori: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie
cs.AI

Abstract

I recenti Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno compiuto notevoli progressi nella comprensione dei video. Tuttavia, le loro prestazioni sui video che coinvolgono azioni umane sono ancora limitate dalla mancanza di dati di alta qualità. Per affrontare questo problema, introduciamo una pipeline di annotazione dati in due fasi. In primo luogo, progettiamo strategie per accumulare video che presentano azioni umane chiare da Internet. In secondo luogo, i video vengono annotati in un formato di descrizione standardizzato che utilizza attributi umani per distinguere gli individui e descrivere cronologicamente le loro azioni e interazioni. Attraverso questa pipeline, abbiamo curato due dataset, denominati HAICTrain e HAICBench. HAICTrain comprende 126K coppie video-descrizione generate da Gemini-Pro e verificate per scopi di addestramento. Nel frattempo, HAICBench include 500 coppie video-descrizione annotate manualmente e 1.400 coppie domanda-risposta, per una valutazione completa della comprensione delle azioni umane. I risultati sperimentali dimostrano che l'addestramento con HAICTrain non solo migliora significativamente le capacità di comprensione umana su 4 benchmark, ma può anche migliorare i risultati della generazione di video da testo. Sia HAICTrain che HAICBench sono rilasciati su https://huggingface.co/datasets/KuaishouHAIC/HAIC.
English
Recent Multi-modal Large Language Models (MLLMs) have made great progress in video understanding. However, their performance on videos involving human actions is still limited by the lack of high-quality data. To address this, we introduce a two-stage data annotation pipeline. First, we design strategies to accumulate videos featuring clear human actions from the Internet. Second, videos are annotated in a standardized caption format that uses human attributes to distinguish individuals and chronologically details their actions and interactions. Through this pipeline, we curate two datasets, namely HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs generated by Gemini-Pro and verified for training purposes. Meanwhile, HAICBench includes 500 manually annotated video-caption pairs and 1,400 QA pairs, for a comprehensive evaluation of human action understanding. Experimental results demonstrate that training with HAICTrain not only significantly enhances human understanding abilities across 4 benchmarks, but can also improve text-to-video generation results. Both the HAICTrain and HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.

Summary

AI-Generated Summary

PDF22March 3, 2025