HAIC : Amélioration de la compréhension et de la génération d'actions humaines grâce à de meilleures légendes pour les modèles de langage multi-modaux de grande taille
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models
February 28, 2025
Auteurs: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie
cs.AI
Résumé
Les récents modèles de langage multi-modaux de grande taille (MLLMs) ont réalisé des progrès significatifs dans la compréhension vidéo. Cependant, leurs performances sur les vidéos impliquant des actions humaines restent limitées par le manque de données de haute qualité. Pour remédier à cela, nous introduisons un pipeline d'annotation de données en deux étapes. Premièrement, nous concevons des stratégies pour accumuler des vidéos présentant des actions humaines claires à partir d'Internet. Deuxièmement, les vidéos sont annotées dans un format de légende standardisé qui utilise les attributs humains pour distinguer les individus et décrit chronologiquement leurs actions et interactions. Grâce à ce pipeline, nous avons constitué deux ensembles de données, nommés HAICTrain et HAICBench. HAICTrain comprend 126 000 paires vidéo-légende générées par Gemini-Pro et vérifiées à des fins d'entraînement. Par ailleurs, HAICBench inclut 500 paires vidéo-légende annotées manuellement et 1 400 paires questions-réponses, pour une évaluation complète de la compréhension des actions humaines. Les résultats expérimentaux montrent que l'entraînement avec HAICTrain améliore non seulement de manière significative les capacités de compréhension humaine sur 4 benchmarks, mais peut également améliorer les résultats de génération texte-vidéo. Les ensembles de données HAICTrain et HAICBench sont disponibles à l'adresse suivante : https://huggingface.co/datasets/KuaishouHAIC/HAIC.
English
Recent Multi-modal Large Language Models (MLLMs) have made great progress in
video understanding. However, their performance on videos involving human
actions is still limited by the lack of high-quality data. To address this, we
introduce a two-stage data annotation pipeline. First, we design strategies to
accumulate videos featuring clear human actions from the Internet. Second,
videos are annotated in a standardized caption format that uses human
attributes to distinguish individuals and chronologically details their actions
and interactions. Through this pipeline, we curate two datasets, namely
HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs
generated by Gemini-Pro and verified for training purposes. Meanwhile,
HAICBench includes 500 manually annotated video-caption pairs and
1,400 QA pairs, for a comprehensive evaluation of human action understanding.
Experimental results demonstrate that training with HAICTrain not only
significantly enhances human understanding abilities across 4 benchmarks, but
can also improve text-to-video generation results. Both the HAICTrain and
HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.Summary
AI-Generated Summary