HAIC: Verbesserung des Verständnisses und der Generierung menschlicher Handlungen durch bessere Beschriftungen für multimodale Large Language Models

papers.abstract

Aktuelle Multi-modale Large Language Models (MLLMs) haben große Fortschritte im Bereich des Videoverständnisses erzielt. Ihre Leistung bei Videos, die menschliche Handlungen beinhalten, ist jedoch nach wie vor durch den Mangel an hochwertigen Daten eingeschränkt. Um dies zu beheben, führen wir einen zweistufigen Datenannotationsprozess ein. Zunächst entwickeln wir Strategien, um Videos mit eindeutigen menschlichen Handlungen aus dem Internet zu sammeln. Anschließend werden die Videos in einem standardisierten Beschreibungsformat annotiert, das menschliche Attribute zur Unterscheidung von Personen verwendet und deren Handlungen und Interaktionen chronologisch detailliert beschreibt. Durch diesen Prozess haben wir zwei Datensätze kuratiert, nämlich HAICTrain und HAICBench. HAICTrain umfasst 126.000 Video-Beschreibungs-Paare, die von Gemini-Pro generiert und für Trainingszwecke verifiziert wurden. HAICBench hingegen enthält 500 manuell annotierte Video-Beschreibungs-Paare sowie 1.400 Frage-Antwort-Paare, um ein umfassendes Verständnis menschlicher Handlungen zu evaluieren. Experimentelle Ergebnisse zeigen, dass das Training mit HAICTrain nicht nur das Verständnis menschlicher Handlungen über 4 Benchmarks hinweg signifikant verbessert, sondern auch die Ergebnisse der Text-zu-Video-Generierung steigern kann. Sowohl HAICTrain als auch HAICBench sind unter https://huggingface.co/datasets/KuaishouHAIC/HAIC veröffentlicht.

English

Recent Multi-modal Large Language Models (MLLMs) have made great progress in video understanding. However, their performance on videos involving human actions is still limited by the lack of high-quality data. To address this, we introduce a two-stage data annotation pipeline. First, we design strategies to accumulate videos featuring clear human actions from the Internet. Second, videos are annotated in a standardized caption format that uses human attributes to distinguish individuals and chronologically details their actions and interactions. Through this pipeline, we curate two datasets, namely HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs generated by Gemini-Pro and verified for training purposes. Meanwhile, HAICBench includes 500 manually annotated video-caption pairs and 1,400 QA pairs, for a comprehensive evaluation of human action understanding. Experimental results demonstrate that training with HAICTrain not only significantly enhances human understanding abilities across 4 benchmarks, but can also improve text-to-video generation results. Both the HAICTrain and HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.

HAIC: Verbesserung des Verständnisses und der Generierung menschlicher Handlungen durch bessere Beschriftungen für multimodale Large Language Models

HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

papers.abstract

Support