Суммаризация мультимодальных презентаций с использованием моделей "визуальный язык": Исследование влияния модальностей и структуры
Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure
April 14, 2025
Авторы: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI
Аннотация
Модели, работающие с визуальной и текстовой информацией (Vision-Language Models, VLMs), способны обрабатывать данные в различных форматах: тексты, изображения, чередующиеся тексты и изображения, а также длительные видеозаписи. В данной работе мы проводим детальный количественный и качественный анализ автоматического суммирования мультимодальных презентаций с использованием VLMs, принимающих на вход различные представления данных. На основе этих экспериментов мы предлагаем экономически эффективные стратегии для генерации кратких содержаний из текстоемких мультимодальных документов при различных ограничениях на длину входных данных с использованием VLMs. Мы демонстрируем, что слайды, извлеченные из видеопотока, могут быть полезно использованы в качестве входных данных вместо исходного видео, а структурированное представление, основанное на чередующихся слайдах и транскрипте, обеспечивает наилучшую производительность. В заключение мы размышляем о природе кросс-модальных взаимодействий в мультимодальных презентациях и предлагаем рекомендации по улучшению способностей VLMs к пониманию документов такого типа.
English
Vision-Language Models (VLMs) can process visual and textual information in
multiple formats: texts, images, interleaved texts and images, or even
hour-long videos. In this work, we conduct fine-grained quantitative and
qualitative analyses of automatic summarization of multimodal presentations
using VLMs with various representations as input. From these experiments, we
suggest cost-effective strategies for generating summaries from text-heavy
multimodal documents under different input-length budgets using VLMs. We show
that slides extracted from the video stream can be beneficially used as input
against the raw video, and that a structured representation from interleaved
slides and transcript provides the best performance. Finally, we reflect and
comment on the nature of cross-modal interactions in multimodal presentations
and share suggestions to improve the capabilities of VLMs to understand
documents of this nature.Summary
AI-Generated Summary