ChatPaper.aiChatPaper

HAIC: Mejorando la Comprensión y Generación de Acciones Humanas con Mejores Subtítulos para Modelos de Lenguaje Multimodales de Gran Escala

HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models

February 28, 2025
Autores: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie
cs.AI

Resumen

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos en la comprensión de videos. Sin embargo, su rendimiento en videos que involucran acciones humanas sigue siendo limitado debido a la falta de datos de alta calidad. Para abordar este problema, presentamos un pipeline de anotación de datos en dos etapas. Primero, diseñamos estrategias para acumular videos que presenten acciones humanas claras desde Internet. Segundo, los videos se anotan en un formato de descripción estandarizado que utiliza atributos humanos para distinguir a los individuos y detalla cronológicamente sus acciones e interacciones. A través de este pipeline, hemos creado dos conjuntos de datos, denominados HAICTrain y HAICBench. HAICTrain consta de 126K pares de video-descripción generados por Gemini-Pro y verificados para fines de entrenamiento. Por otro lado, HAICBench incluye 500 pares de video-descripción anotados manualmente y 1,400 pares de preguntas y respuestas, para una evaluación exhaustiva de la comprensión de acciones humanas. Los resultados experimentales demuestran que el entrenamiento con HAICTrain no solo mejora significativamente las capacidades de comprensión humana en 4 benchmarks, sino que también puede mejorar los resultados de generación de texto a video. Tanto HAICTrain como HAICBench están disponibles en https://huggingface.co/datasets/KuaishouHAIC/HAIC.
English
Recent Multi-modal Large Language Models (MLLMs) have made great progress in video understanding. However, their performance on videos involving human actions is still limited by the lack of high-quality data. To address this, we introduce a two-stage data annotation pipeline. First, we design strategies to accumulate videos featuring clear human actions from the Internet. Second, videos are annotated in a standardized caption format that uses human attributes to distinguish individuals and chronologically details their actions and interactions. Through this pipeline, we curate two datasets, namely HAICTrain and HAICBench. HAICTrain comprises 126K video-caption pairs generated by Gemini-Pro and verified for training purposes. Meanwhile, HAICBench includes 500 manually annotated video-caption pairs and 1,400 QA pairs, for a comprehensive evaluation of human action understanding. Experimental results demonstrate that training with HAICTrain not only significantly enhances human understanding abilities across 4 benchmarks, but can also improve text-to-video generation results. Both the HAICTrain and HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.

Summary

AI-Generated Summary

PDF22March 3, 2025