HAIC: マルチモーダル大規模言語モデルのためのより優れたキャプションによる人間の行動理解と生成の改善
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models
February 28, 2025
著者: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie
cs.AI
要旨
近年のマルチモーダル大規模言語モデル(MLLMs)は、ビデオ理解において大きな進展を遂げています。しかし、人間の行動を含むビデオに対する性能は、高品質なデータの不足によって依然として制限されています。この問題に対処するため、我々は2段階のデータアノテーションパイプラインを導入しました。まず、インターネットから明確な人間の行動を特徴とするビデオを蓄積するための戦略を設計します。次に、ビデオは標準化されたキャプションフォーマットでアノテーションされ、人間の属性を使用して個人を区別し、その行動と相互作用を時系列に詳細に記述します。このパイプラインを通じて、HAICTrainとHAICBenchという2つのデータセットをキュレーションしました。HAICTrainは、Gemini-Proによって生成され、トレーニング目的で検証された126Kのビデオとキャプションのペアで構成されています。一方、HAICBenchは、人間の行動理解を包括的に評価するために、手動でアノテーションされた500のビデオとキャプションのペア、および1,400のQAペアを含んでいます。実験結果は、HAICTrainでのトレーニングが、4つのベンチマークにわたる人間の理解能力を大幅に向上させるだけでなく、テキストからビデオへの生成結果も改善できることを示しています。HAICTrainとHAICBenchの両方は、https://huggingface.co/datasets/KuaishouHAIC/HAIC で公開されています。
English
Recent Multi-modal Large Language Models (MLLMs) have made great progress in
video understanding. However, their performance on videos involving human
actions is still limited by the lack of high-quality data. To address this, we
introduce a two-stage data annotation pipeline. First, we design strategies to
accumulate videos featuring clear human actions from the Internet. Second,
videos are annotated in a standardized caption format that uses human
attributes to distinguish individuals and chronologically details their actions
and interactions. Through this pipeline, we curate two datasets, namely
HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs
generated by Gemini-Pro and verified for training purposes. Meanwhile,
HAICBench includes 500 manually annotated video-caption pairs and
1,400 QA pairs, for a comprehensive evaluation of human action understanding.
Experimental results demonstrate that training with HAICTrain not only
significantly enhances human understanding abilities across 4 benchmarks, but
can also improve text-to-video generation results. Both the HAICTrain and
HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.Summary
AI-Generated Summary