HAIC: Melhorando a Compreensão e Geração de Ações Humanas com Legendas Aprimoradas para Modelos de Linguagem Multimodais de Grande Escala

Resumo

Modelos Multimodais de Linguagem de Grande Escala (MLLMs) recentes têm feito grandes avanços na compreensão de vídeos. No entanto, seu desempenho em vídeos que envolvem ações humanas ainda é limitado pela falta de dados de alta qualidade. Para resolver isso, introduzimos um pipeline de anotação de dados em duas etapas. Primeiro, projetamos estratégias para acumular vídeos que apresentam ações humanas claras a partir da Internet. Em segundo lugar, os vídeos são anotados em um formato de legenda padronizado que utiliza atributos humanos para distinguir indivíduos e detalha cronologicamente suas ações e interações. Por meio desse pipeline, curamos dois conjuntos de dados, denominados HAICTrain e HAICBench. O HAICTrain compreende 126 mil pares de vídeo-legenda gerados pelo Gemini-Pro e verificados para fins de treinamento. Enquanto isso, o HAICBench inclui 500 pares de vídeo-legenda anotados manualmente e 1.400 pares de perguntas e respostas, para uma avaliação abrangente da compreensão de ações humanas. Os resultados experimentais demonstram que o treinamento com o HAICTrain não apenas melhora significativamente as habilidades de compreensão humana em 4 benchmarks, mas também pode aprimorar os resultados de geração de texto para vídeo. Tanto o HAICTrain quanto o HAICBench estão disponíveis em https://huggingface.co/datasets/KuaishouHAIC/HAIC.

English

Recent Multi-modal Large Language Models (MLLMs) have made great progress in video understanding. However, their performance on videos involving human actions is still limited by the lack of high-quality data. To address this, we introduce a two-stage data annotation pipeline. First, we design strategies to accumulate videos featuring clear human actions from the Internet. Second, videos are annotated in a standardized caption format that uses human attributes to distinguish individuals and chronologically details their actions and interactions. Through this pipeline, we curate two datasets, namely HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs generated by Gemini-Pro and verified for training purposes. Meanwhile, HAICBench includes 500 manually annotated video-caption pairs and 1,400 QA pairs, for a comprehensive evaluation of human action understanding. Experimental results demonstrate that training with HAICTrain not only significantly enhances human understanding abilities across 4 benchmarks, but can also improve text-to-video generation results. Both the HAICTrain and HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.

HAIC: Melhorando a Compreensão e Geração de Ações Humanas com Legendas Aprimoradas para Modelos de Linguagem Multimodais de Grande Escala

HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

Resumo

Support