ChatPaper.aiChatPaper

MS4UI: 사용자 인터페이스 교육용 비디오의 다중 모드 요약을 위한 데이터셋

MS4UI: A Dataset for Multi-modal Summarization of User Interface Instructional Videos

June 14, 2025
저자: Yuan Zang, Hao Tan, Seunghyun Yoon, Franck Dernoncourt, Jiuxiang Gu, Kushal Kafle, Chen Sun, Trung Bui
cs.AI

초록

본 연구는 사용자가 텍스트 지침과 주요 비디오 프레임 형태로 기술을 효율적으로 학습할 수 있도록 돕는 것을 목표로, 교육용 비디오를 위한 다중 모드 요약 기술을 탐구한다. 기존 벤치마크는 일반적인 의미 수준의 비디오 요약에 초점을 맞추고 있어, 단계별로 실행 가능한 지침과 시각적 설명을 제공하는 데 적합하지 않으며, 이는 교육용 비디오에 있어 매우 중요한 요소이다. 이러한 격차를 메우기 위해, 본 연구는 사용자 인터페이스(UI) 교육용 비디오 요약을 위한 새로운 벤치마크를 제안한다. 총 167시간 이상의 2,413개의 UI 교육용 비디오로 구성된 데이터셋을 수집하였으며, 이 비디오들은 비디오 분할, 텍스트 요약, 비디오 요약을 위해 수동으로 주석 처리되어 간결하고 실행 가능한 비디오 요약에 대한 포괄적인 평가를 가능하게 한다. 수집된 MS4UI 데이터셋을 대상으로 광범위한 실험을 수행한 결과, 최신 다중 모드 요약 방법들이 UI 비디오 요약에서 어려움을 겪는 것으로 나타났으며, UI 교육용 비디오 요약을 위한 새로운 방법의 중요성이 강조되었다.
English
We study multi-modal summarization for instructional videos, whose goal is to provide users an efficient way to learn skills in the form of text instructions and key video frames. We observe that existing benchmarks focus on generic semantic-level video summarization, and are not suitable for providing step-by-step executable instructions and illustrations, both of which are crucial for instructional videos. We propose a novel benchmark for user interface (UI) instructional video summarization to fill the gap. We collect a dataset of 2,413 UI instructional videos, which spans over 167 hours. These videos are manually annotated for video segmentation, text summarization, and video summarization, which enable the comprehensive evaluations for concise and executable video summarization. We conduct extensive experiments on our collected MS4UI dataset, which suggest that state-of-the-art multi-modal summarization methods struggle on UI video summarization, and highlight the importance of new methods for UI instructional video summarization.
PDF32June 17, 2025