ChatPaper.aiChatPaper

Zusammenfassung multimodaler Präsentationen mit Vision-Sprache-Modellen: Untersuchung der Auswirkungen von Modalitäten und Struktur

Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure

April 14, 2025
Autoren: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI

Zusammenfassung

Vision-Language-Modelle (VLMs) können visuelle und textuelle Informationen in mehreren Formaten verarbeiten: Texte, Bilder, verschachtelte Texte und Bilder oder sogar stundenlange Videos. In dieser Arbeit führen wir detaillierte quantitative und qualitative Analysen zur automatischen Zusammenfassung von multimodalen Präsentationen durch, wobei VLMs mit verschiedenen Darstellungen als Eingabe verwendet werden. Aus diesen Experimenten leiten wir kosteneffiziente Strategien ab, um Zusammenfassungen aus textlastigen multimodalen Dokumenten unter verschiedenen Eingabelängenbudgets mithilfe von VLMs zu generieren. Wir zeigen, dass aus dem Videostream extrahierte Folien vorteilhaft als Eingabe gegenüber dem Rohvideo verwendet werden können und dass eine strukturierte Darstellung aus verschachtelten Folien und Transkripten die beste Leistung erzielt. Abschließend reflektieren und kommentieren wir die Art der cross-modalen Interaktionen in multimodalen Präsentationen und teilen Vorschläge, um die Fähigkeiten von VLMs zum Verständnis von Dokumenten dieser Art zu verbessern.
English
Vision-Language Models (VLMs) can process visual and textual information in multiple formats: texts, images, interleaved texts and images, or even hour-long videos. In this work, we conduct fine-grained quantitative and qualitative analyses of automatic summarization of multimodal presentations using VLMs with various representations as input. From these experiments, we suggest cost-effective strategies for generating summaries from text-heavy multimodal documents under different input-length budgets using VLMs. We show that slides extracted from the video stream can be beneficially used as input against the raw video, and that a structured representation from interleaved slides and transcript provides the best performance. Finally, we reflect and comment on the nature of cross-modal interactions in multimodal presentations and share suggestions to improve the capabilities of VLMs to understand documents of this nature.

Summary

AI-Generated Summary

PDF32April 16, 2025