ChatPaper.aiChatPaper

Resumo de Apresentações Multimodais com Modelos de Visão e Linguagem: Estudo do Efeito das Modalidades e da Estrutura

Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure

April 14, 2025
Autores: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI

Resumo

Modelos Visão-Linguagem (VLMs) podem processar informações visuais e textuais em múltiplos formatos: textos, imagens, textos e imagens intercalados, ou até mesmo vídeos de longa duração. Neste trabalho, realizamos análises quantitativas e qualitativas detalhadas da sumarização automática de apresentações multimodais utilizando VLMs com diversas representações como entrada. A partir desses experimentos, sugerimos estratégias custo-efetivas para gerar resumos de documentos multimodais com predominância de texto sob diferentes orçamentos de comprimento de entrada usando VLMs. Mostramos que slides extraídos do fluxo de vídeo podem ser utilizados de forma vantajosa como entrada em comparação ao vídeo bruto, e que uma representação estruturada a partir de slides e transcrições intercalados oferece o melhor desempenho. Por fim, refletimos e comentamos sobre a natureza das interações intermodais em apresentações multimodais e compartilhamos sugestões para melhorar as capacidades dos VLMs na compreensão de documentos desse tipo.
English
Vision-Language Models (VLMs) can process visual and textual information in multiple formats: texts, images, interleaved texts and images, or even hour-long videos. In this work, we conduct fine-grained quantitative and qualitative analyses of automatic summarization of multimodal presentations using VLMs with various representations as input. From these experiments, we suggest cost-effective strategies for generating summaries from text-heavy multimodal documents under different input-length budgets using VLMs. We show that slides extracted from the video stream can be beneficially used as input against the raw video, and that a structured representation from interleaved slides and transcript provides the best performance. Finally, we reflect and comment on the nature of cross-modal interactions in multimodal presentations and share suggestions to improve the capabilities of VLMs to understand documents of this nature.

Summary

AI-Generated Summary

PDF32April 16, 2025