Un Video Vale 4096 Tokens: Verbaliza Videos Narrativos Para Comprenderlos En Escenario Cero
A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot
May 16, 2023
Autores: Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen
cs.AI
Resumen
El contenido multimedia, como anuncios y videos narrativos, presenta una rica mezcla de creatividad y múltiples modalidades. Incorpora elementos como texto, imágenes, audio y técnicas de narración, utilizando recursos como emociones, simbolismo y eslóganes para transmitir significado. Si bien investigaciones previas en comprensión multimedia se han centrado principalmente en videos con acciones específicas, como cocinar, existe una escasez de grandes conjuntos de datos de entrenamiento anotados, lo que dificulta el desarrollo de modelos de aprendizaje supervisado con un rendimiento satisfactorio para aplicaciones del mundo real. Sin embargo, el auge de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha demostrado un rendimiento notable en tareas de procesamiento del lenguaje natural (NLP), como la clasificación de emociones, la respuesta a preguntas y la clasificación de temas. Para cerrar esta brecha de rendimiento en la comprensión multimedia, proponemos verbalizar videos narrativos para generar sus descripciones en lenguaje natural y luego realizar tareas de comprensión de video sobre la historia generada en lugar del video original. A través de extensos experimentos en cinco tareas de comprensión de video, demostramos que nuestro método, a pesar de ser de tipo zero-shot, obtiene resultados significativamente mejores que los enfoques supervisados de referencia para la comprensión de video. Además, para abordar la falta de puntos de referencia en la comprensión de historias, publicamos el primer conjunto de datos sobre una tarea crucial en las ciencias sociales computacionales: la identificación de estrategias de persuasión.
English
Multimedia content, such as advertisements and story videos, exhibit a rich
blend of creativity and multiple modalities. They incorporate elements like
text, visuals, audio, and storytelling techniques, employing devices like
emotions, symbolism, and slogans to convey meaning. While previous research in
multimedia understanding has focused mainly on videos with specific actions
like cooking, there is a dearth of large annotated training datasets, hindering
the development of supervised learning models with satisfactory performance for
real-world applications. However, the rise of large language models (LLMs) has
witnessed remarkable zero-shot performance in various natural language
processing (NLP) tasks, such as emotion classification, question-answering, and
topic classification. To bridge this performance gap in multimedia
understanding, we propose verbalizing story videos to generate their
descriptions in natural language and then performing video-understanding tasks
on the generated story as opposed to the original video. Through extensive
experiments on five video-understanding tasks, we demonstrate that our method,
despite being zero-shot, achieves significantly better results than supervised
baselines for video understanding. Further, alleviating a lack of story
understanding benchmarks, we publicly release the first dataset on a crucial
task in computational social science, persuasion strategy identification.