HAIC: Verbesserung des Verständnisses und der Generierung menschlicher Handlungen durch bessere Beschriftungen für multimodale Large Language Models
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models
February 28, 2025
Autoren: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie
cs.AI
Zusammenfassung
Aktuelle Multi-modale Large Language Models (MLLMs) haben große Fortschritte im Bereich des Videoverständnisses erzielt. Ihre Leistung bei Videos, die menschliche Handlungen beinhalten, ist jedoch nach wie vor durch den Mangel an hochwertigen Daten eingeschränkt. Um dies zu beheben, führen wir einen zweistufigen Datenannotationsprozess ein. Zunächst entwickeln wir Strategien, um Videos mit eindeutigen menschlichen Handlungen aus dem Internet zu sammeln. Anschließend werden die Videos in einem standardisierten Beschreibungsformat annotiert, das menschliche Attribute zur Unterscheidung von Personen verwendet und deren Handlungen und Interaktionen chronologisch detailliert beschreibt. Durch diesen Prozess haben wir zwei Datensätze kuratiert, nämlich HAICTrain und HAICBench. HAICTrain umfasst 126.000 Video-Beschreibungs-Paare, die von Gemini-Pro generiert und für Trainingszwecke verifiziert wurden. HAICBench hingegen enthält 500 manuell annotierte Video-Beschreibungs-Paare sowie 1.400 Frage-Antwort-Paare, um ein umfassendes Verständnis menschlicher Handlungen zu evaluieren. Experimentelle Ergebnisse zeigen, dass das Training mit HAICTrain nicht nur das Verständnis menschlicher Handlungen über 4 Benchmarks hinweg signifikant verbessert, sondern auch die Ergebnisse der Text-zu-Video-Generierung steigern kann. Sowohl HAICTrain als auch HAICBench sind unter https://huggingface.co/datasets/KuaishouHAIC/HAIC veröffentlicht.
English
Recent Multi-modal Large Language Models (MLLMs) have made great progress in
video understanding. However, their performance on videos involving human
actions is still limited by the lack of high-quality data. To address this, we
introduce a two-stage data annotation pipeline. First, we design strategies to
accumulate videos featuring clear human actions from the Internet. Second,
videos are annotated in a standardized caption format that uses human
attributes to distinguish individuals and chronologically details their actions
and interactions. Through this pipeline, we curate two datasets, namely
HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs
generated by Gemini-Pro and verified for training purposes. Meanwhile,
HAICBench includes 500 manually annotated video-caption pairs and
1,400 QA pairs, for a comprehensive evaluation of human action understanding.
Experimental results demonstrate that training with HAICTrain not only
significantly enhances human understanding abilities across 4 benchmarks, but
can also improve text-to-video generation results. Both the HAICTrain and
HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.Summary
AI-Generated Summary