Samenvatting van Multimodale Presentaties met Vision-Taalmodellen: Onderzoek naar het Effect van Modaliteiten en Structuur
Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure
April 14, 2025
Auteurs: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI
Samenvatting
Vision-Language Models (VLMs) kunnen visuele en tekstuele informatie verwerken in
meerdere formaten: teksten, afbeeldingen, afwisselende teksten en afbeeldingen, of zelfs
urenlange video's. In dit werk voeren we gedetailleerde kwantitatieve en
kwalitatieve analyses uit van automatische samenvatting van multimodale presentaties
met behulp van VLMs met verschillende representaties als invoer. Uit deze experimenten
stellen we kosteneffectieve strategieën voor voor het genereren van samenvattingen uit tekstrijke
multimodale documenten onder verschillende invoerlengtebudgetten met behulp van VLMs. We tonen aan
dat dia's die uit de videostream zijn geëxtraheerd, voordelig kunnen worden gebruikt als invoer
in plaats van de ruwe video, en dat een gestructureerde representatie van afwisselende
dia's en transcript de beste prestaties levert. Tot slot reflecteren en
becommentariëren we de aard van cross-modale interacties in multimodale presentaties
en delen we suggesties om de mogelijkheden van VLMs te verbeteren voor het begrijpen
van documenten van deze aard.
English
Vision-Language Models (VLMs) can process visual and textual information in
multiple formats: texts, images, interleaved texts and images, or even
hour-long videos. In this work, we conduct fine-grained quantitative and
qualitative analyses of automatic summarization of multimodal presentations
using VLMs with various representations as input. From these experiments, we
suggest cost-effective strategies for generating summaries from text-heavy
multimodal documents under different input-length budgets using VLMs. We show
that slides extracted from the video stream can be beneficially used as input
against the raw video, and that a structured representation from interleaved
slides and transcript provides the best performance. Finally, we reflect and
comment on the nature of cross-modal interactions in multimodal presentations
and share suggestions to improve the capabilities of VLMs to understand
documents of this nature.Summary
AI-Generated Summary