ChatPaper.aiChatPaper

Samenvatting van Multimodale Presentaties met Vision-Taalmodellen: Onderzoek naar het Effect van Modaliteiten en Structuur

Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure

April 14, 2025
Auteurs: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI

Samenvatting

Vision-Language Models (VLMs) kunnen visuele en tekstuele informatie verwerken in meerdere formaten: teksten, afbeeldingen, afwisselende teksten en afbeeldingen, of zelfs urenlange video's. In dit werk voeren we gedetailleerde kwantitatieve en kwalitatieve analyses uit van automatische samenvatting van multimodale presentaties met behulp van VLMs met verschillende representaties als invoer. Uit deze experimenten stellen we kosteneffectieve strategieën voor voor het genereren van samenvattingen uit tekstrijke multimodale documenten onder verschillende invoerlengtebudgetten met behulp van VLMs. We tonen aan dat dia's die uit de videostream zijn geëxtraheerd, voordelig kunnen worden gebruikt als invoer in plaats van de ruwe video, en dat een gestructureerde representatie van afwisselende dia's en transcript de beste prestaties levert. Tot slot reflecteren en becommentariëren we de aard van cross-modale interacties in multimodale presentaties en delen we suggesties om de mogelijkheden van VLMs te verbeteren voor het begrijpen van documenten van deze aard.
English
Vision-Language Models (VLMs) can process visual and textual information in multiple formats: texts, images, interleaved texts and images, or even hour-long videos. In this work, we conduct fine-grained quantitative and qualitative analyses of automatic summarization of multimodal presentations using VLMs with various representations as input. From these experiments, we suggest cost-effective strategies for generating summaries from text-heavy multimodal documents under different input-length budgets using VLMs. We show that slides extracted from the video stream can be beneficially used as input against the raw video, and that a structured representation from interleaved slides and transcript provides the best performance. Finally, we reflect and comment on the nature of cross-modal interactions in multimodal presentations and share suggestions to improve the capabilities of VLMs to understand documents of this nature.

Summary

AI-Generated Summary

PDF32April 16, 2025