ChatPaper.aiChatPaper

Résumé des présentations multimodales avec des modèles vision-langage : Étude de l'effet des modalités et de la structure

Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure

April 14, 2025
Auteurs: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI

Résumé

Les modèles vision-langage (VLMs) peuvent traiter des informations visuelles et textuelles dans divers formats : textes, images, textes et images entrelacés, voire des vidéos de plusieurs heures. Dans ce travail, nous menons des analyses quantitatives et qualitatives détaillées de la synthèse automatique de présentations multimodales en utilisant des VLMs avec différentes représentations en entrée. À partir de ces expériences, nous proposons des stratégies rentables pour générer des résumés à partir de documents multimodaux riches en texte, sous différentes contraintes de longueur d'entrée, en utilisant des VLMs. Nous montrons que les diapositives extraites du flux vidéo peuvent être avantageusement utilisées en entrée par rapport à la vidéo brute, et qu'une représentation structurée à partir de diapositives et de transcriptions entrelacées offre les meilleures performances. Enfin, nous réfléchissons et commentons la nature des interactions intermodales dans les présentations multimodales, et partageons des suggestions pour améliorer les capacités des VLMs à comprendre des documents de cette nature.
English
Vision-Language Models (VLMs) can process visual and textual information in multiple formats: texts, images, interleaved texts and images, or even hour-long videos. In this work, we conduct fine-grained quantitative and qualitative analyses of automatic summarization of multimodal presentations using VLMs with various representations as input. From these experiments, we suggest cost-effective strategies for generating summaries from text-heavy multimodal documents under different input-length budgets using VLMs. We show that slides extracted from the video stream can be beneficially used as input against the raw video, and that a structured representation from interleaved slides and transcript provides the best performance. Finally, we reflect and comment on the nature of cross-modal interactions in multimodal presentations and share suggestions to improve the capabilities of VLMs to understand documents of this nature.

Summary

AI-Generated Summary

PDF32April 16, 2025