ChatPaper.aiChatPaper

다중모달 프레젠테이션 요약을 위한 비전-언어 모델: 모달리티와 구조의 영향에 대한 연구

Summarization of Multimodal Presentations with Vision-Language Models: Study of the Effect of Modalities and Structure

April 14, 2025
저자: Théo Gigant, Camille Guinaudeau, Frédéric Dufaux
cs.AI

초록

비전-언어 모델(VLMs)은 텍스트, 이미지, 텍스트와 이미지가 혼합된 형태, 심지어 시간 단위의 긴 영상까지 다양한 형식의 시각 및 텍스트 정보를 처리할 수 있습니다. 본 연구에서는 다양한 표현을 입력으로 사용하여 다중모달 프레젠테이션의 자동 요약에 대한 세밀한 정량적 및 정성적 분석을 수행합니다. 이를 통해 텍스트가 많은 다중모달 문서에서 입력 길이 예산에 따라 요약을 생성하는 비용 효율적인 전략을 제안합니다. 실험 결과, 비디오 스트림에서 추출한 슬라이드를 원본 비디오 대신 입력으로 사용하는 것이 유리하며, 슬라이드와 대본이 혼합된 구조화된 표현이 최고의 성능을 보임을 확인했습니다. 마지막으로, 다중모달 프레젠테이션에서의 교차모달 상호작용의 특성을 고찰하고, 이러한 유형의 문서를 이해하기 위한 VLMs의 능력을 향상시키기 위한 제안을 공유합니다.
English
Vision-Language Models (VLMs) can process visual and textual information in multiple formats: texts, images, interleaved texts and images, or even hour-long videos. In this work, we conduct fine-grained quantitative and qualitative analyses of automatic summarization of multimodal presentations using VLMs with various representations as input. From these experiments, we suggest cost-effective strategies for generating summaries from text-heavy multimodal documents under different input-length budgets using VLMs. We show that slides extracted from the video stream can be beneficially used as input against the raw video, and that a structured representation from interleaved slides and transcript provides the best performance. Finally, we reflect and comment on the nature of cross-modal interactions in multimodal presentations and share suggestions to improve the capabilities of VLMs to understand documents of this nature.

Summary

AI-Generated Summary

PDF32April 16, 2025