HAIC: Melhorando a Compreensão e Geração de Ações Humanas com Legendas Aprimoradas para Modelos de Linguagem Multimodais de Grande Escala
HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models
February 28, 2025
Autores: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie
cs.AI
Resumo
Modelos Multimodais de Linguagem de Grande Escala (MLLMs) recentes têm feito grandes avanços na compreensão de vídeos. No entanto, seu desempenho em vídeos que envolvem ações humanas ainda é limitado pela falta de dados de alta qualidade. Para resolver isso, introduzimos um pipeline de anotação de dados em duas etapas. Primeiro, projetamos estratégias para acumular vídeos que apresentam ações humanas claras a partir da Internet. Em segundo lugar, os vídeos são anotados em um formato de legenda padronizado que utiliza atributos humanos para distinguir indivíduos e detalha cronologicamente suas ações e interações. Por meio desse pipeline, curamos dois conjuntos de dados, denominados HAICTrain e HAICBench. O HAICTrain compreende 126 mil pares de vídeo-legenda gerados pelo Gemini-Pro e verificados para fins de treinamento. Enquanto isso, o HAICBench inclui 500 pares de vídeo-legenda anotados manualmente e 1.400 pares de perguntas e respostas, para uma avaliação abrangente da compreensão de ações humanas. Os resultados experimentais demonstram que o treinamento com o HAICTrain não apenas melhora significativamente as habilidades de compreensão humana em 4 benchmarks, mas também pode aprimorar os resultados de geração de texto para vídeo. Tanto o HAICTrain quanto o HAICBench estão disponíveis em https://huggingface.co/datasets/KuaishouHAIC/HAIC.
English
Recent Multi-modal Large Language Models (MLLMs) have made great progress in
video understanding. However, their performance on videos involving human
actions is still limited by the lack of high-quality data. To address this, we
introduce a two-stage data annotation pipeline. First, we design strategies to
accumulate videos featuring clear human actions from the Internet. Second,
videos are annotated in a standardized caption format that uses human
attributes to distinguish individuals and chronologically details their actions
and interactions. Through this pipeline, we curate two datasets, namely
HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs
generated by Gemini-Pro and verified for training purposes. Meanwhile,
HAICBench includes 500 manually annotated video-caption pairs and
1,400 QA pairs, for a comprehensive evaluation of human action understanding.
Experimental results demonstrate that training with HAICTrain not only
significantly enhances human understanding abilities across 4 benchmarks, but
can also improve text-to-video generation results. Both the HAICTrain and
HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.Summary
AI-Generated Summary