AuroraCap: Subtitulado Detallado Eficiente y de Alto Rendimiento en Videos y un Nuevo Referente
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
October 4, 2024
Autores: Wenhao Chai, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jeng-Neng Hwang, Saining Xie, Christopher D. Manning
cs.AI
Resumen
La subtitulación detallada de videos es una tarea clave que tiene como objetivo generar descripciones textuales completas y coherentes del contenido de un video, beneficiando tanto la comprensión como la generación de videos. En este artículo, proponemos AuroraCap, un subtitulador de videos basado en un gran modelo multimodal. Seguimos el diseño de arquitectura más simple sin parámetros adicionales para modelado temporal. Para abordar la sobrecarga causada por secuencias de video extensas, implementamos la estrategia de fusión de tokens, reduciendo el número de tokens visuales de entrada. Sorprendentemente, encontramos que esta estrategia resulta en una pérdida de rendimiento mínima. AuroraCap muestra un rendimiento superior en varios benchmarks de subtitulación de videos e imágenes, por ejemplo, obteniendo un CIDEr de 88.9 en Flickr30k, superando a GPT-4V (55.3) y Gemini-1.5 Pro (82.2). Sin embargo, los benchmarks de subtitulación de videos existentes solo incluyen descripciones simples, que consisten en unas pocas docenas de palabras, lo que limita la investigación en este campo. Por lo tanto, desarrollamos VDC, un benchmark de subtitulación detallada de videos con más de mil descripciones estructuradas cuidadosamente anotadas. Además, proponemos una nueva métrica asistida por LLM, VDCscore, para mejorar la evaluación, que adopta una estrategia de dividir y conquistar para transformar la evaluación de descripciones largas en múltiples pares de preguntas y respuestas cortas. Con la ayuda de la clasificación Elo humana, nuestros experimentos muestran que este benchmark se correlaciona mejor con los juicios humanos sobre la calidad de la subtitulación detallada de videos.
English
Video detailed captioning is a key task which aims to generate comprehensive
and coherent textual descriptions of video content, benefiting both video
understanding and generation. In this paper, we propose AuroraCap, a video
captioner based on a large multimodal model. We follow the simplest
architecture design without additional parameters for temporal modeling. To
address the overhead caused by lengthy video sequences, we implement the token
merging strategy, reducing the number of input visual tokens. Surprisingly, we
found that this strategy results in little performance loss. AuroraCap shows
superior performance on various video and image captioning benchmarks, for
example, obtaining a CIDEr of 88.9 on Flickr30k, beating GPT-4V (55.3) and
Gemini-1.5 Pro (82.2). However, existing video caption benchmarks only include
simple descriptions, consisting of a few dozen words, which limits research in
this field. Therefore, we develop VDC, a video detailed captioning benchmark
with over one thousand carefully annotated structured captions. In addition, we
propose a new LLM-assisted metric VDCscore for bettering evaluation, which
adopts a divide-and-conquer strategy to transform long caption evaluation into
multiple short question-answer pairs. With the help of human Elo ranking, our
experiments show that this benchmark better correlates with human judgments of
video detailed captioning quality.Summary
AI-Generated Summary