Resumen de Presentaciones Multimodales con Modelos de Visión-Lenguaje: Estudio del Efecto de las Modalidades y la Estructura
Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure
April 14, 2025
Autores: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs) pueden procesar información visual y textual en múltiples formatos: textos, imágenes, textos e imágenes intercalados, o incluso videos de larga duración. En este trabajo, realizamos análisis cuantitativos y cualitativos detallados de la generación automática de resúmenes de presentaciones multimodales utilizando VLMs con diversas representaciones como entrada. A partir de estos experimentos, proponemos estrategias rentables para generar resúmenes de documentos multimodales con predominio de texto bajo diferentes límites de longitud de entrada utilizando VLMs. Demostramos que las diapositivas extraídas del flujo de video pueden utilizarse de manera beneficiosa como entrada en comparación con el video crudo, y que una representación estructurada a partir de diapositivas y transcripciones intercaladas ofrece el mejor rendimiento. Finalmente, reflexionamos y comentamos sobre la naturaleza de las interacciones intermodales en presentaciones multimodales, y compartimos sugerencias para mejorar las capacidades de los VLMs para comprender documentos de este tipo.
English
Vision-Language Models (VLMs) can process visual and textual information in
multiple formats: texts, images, interleaved texts and images, or even
hour-long videos. In this work, we conduct fine-grained quantitative and
qualitative analyses of automatic summarization of multimodal presentations
using VLMs with various representations as input. From these experiments, we
suggest cost-effective strategies for generating summaries from text-heavy
multimodal documents under different input-length budgets using VLMs. We show
that slides extracted from the video stream can be beneficially used as input
against the raw video, and that a structured representation from interleaved
slides and transcript provides the best performance. Finally, we reflect and
comment on the nature of cross-modal interactions in multimodal presentations
and share suggestions to improve the capabilities of VLMs to understand
documents of this nature.Summary
AI-Generated Summary