ChatPaper.aiChatPaper

Un Video Vale 4096 Tokens: Verbaliza Videos Narrativos Para Comprenderlos En Escenario Cero

A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

May 16, 2023
Autores: Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen
cs.AI

Resumen

El contenido multimedia, como anuncios y videos narrativos, presenta una rica mezcla de creatividad y múltiples modalidades. Incorpora elementos como texto, imágenes, audio y técnicas de narración, utilizando recursos como emociones, simbolismo y eslóganes para transmitir significado. Si bien investigaciones previas en comprensión multimedia se han centrado principalmente en videos con acciones específicas, como cocinar, existe una escasez de grandes conjuntos de datos de entrenamiento anotados, lo que dificulta el desarrollo de modelos de aprendizaje supervisado con un rendimiento satisfactorio para aplicaciones del mundo real. Sin embargo, el auge de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha demostrado un rendimiento notable en tareas de procesamiento del lenguaje natural (NLP), como la clasificación de emociones, la respuesta a preguntas y la clasificación de temas. Para cerrar esta brecha de rendimiento en la comprensión multimedia, proponemos verbalizar videos narrativos para generar sus descripciones en lenguaje natural y luego realizar tareas de comprensión de video sobre la historia generada en lugar del video original. A través de extensos experimentos en cinco tareas de comprensión de video, demostramos que nuestro método, a pesar de ser de tipo zero-shot, obtiene resultados significativamente mejores que los enfoques supervisados de referencia para la comprensión de video. Además, para abordar la falta de puntos de referencia en la comprensión de historias, publicamos el primer conjunto de datos sobre una tarea crucial en las ciencias sociales computacionales: la identificación de estrategias de persuasión.
English
Multimedia content, such as advertisements and story videos, exhibit a rich blend of creativity and multiple modalities. They incorporate elements like text, visuals, audio, and storytelling techniques, employing devices like emotions, symbolism, and slogans to convey meaning. While previous research in multimedia understanding has focused mainly on videos with specific actions like cooking, there is a dearth of large annotated training datasets, hindering the development of supervised learning models with satisfactory performance for real-world applications. However, the rise of large language models (LLMs) has witnessed remarkable zero-shot performance in various natural language processing (NLP) tasks, such as emotion classification, question-answering, and topic classification. To bridge this performance gap in multimedia understanding, we propose verbalizing story videos to generate their descriptions in natural language and then performing video-understanding tasks on the generated story as opposed to the original video. Through extensive experiments on five video-understanding tasks, we demonstrate that our method, despite being zero-shot, achieves significantly better results than supervised baselines for video understanding. Further, alleviating a lack of story understanding benchmarks, we publicly release the first dataset on a crucial task in computational social science, persuasion strategy identification.
PDF11December 15, 2024