ChatPaper.aiChatPaper

ARC-Chapter: 1시간 길이의 동영상을 탐색 가능한 챕터와 계층적 요약으로 구조화하기

ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

November 18, 2025
저자: Junfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan
cs.AI

초록

1시간 분량의 장편 동영상(강의, 팟캐스트, 다큐멘터리 등)의 확산은 효율적인 콘텐츠 구조화에 대한 수요를 가속화하고 있습니다. 그러나 기존 접근법들은 일반적으로 짧고 개략적인 주석 데이터를 바탕으로 소규모로 훈련되어 왔기 때문에, 장편 동영상 내 미묘한 전환 지점을 일반화하는 데 한계가 있었습니다. 본 연구에서는 100만 개 이상의 장편 동영상 챕터로 훈련된 최초의 대규모 비디오 챕터 분할 모델인 ARC-Chapter를 소개합니다. 이 모델은 양국어(Bilingual)로 구성되고 시간적 근거(Temporally Grounded)를 가지며 계층적(Hierarchical)인 챕터 주석 데이터를 특징으로 합니다. 이를 위해 우리는 ASR(자동 음성 인식) 기록, 영상 내 텍스트, 시각적 설명문을 통합하여 간단한 제목부터 긴 요약까지 다단계 주석을 생성하는 구조화된 파이프라인을 통해 영중 양국어 챕터 데이터셋을 구축했습니다. 데이터 규모(양)와 라벨 강도(질)가 증가함에 따라 성능이 명확하게 향상됨을 입증했습니다. 또한, 다대일 세그먼트 중첩과 의미적 유사도를 함께 고려하는 새로운 평가 지표 GRACE를 설계하여 실제 챕터 분할 작업의 유연성을 더 잘 반영하도록 했습니다. 폭넓은 실험을 통해 ARC-Chapter가 기존 최고 성능을 F1 점수 기준 14.0%, SODA 점수 기준 11.3% 크게 앞지르는 새로운 최첨단(state-of-the-art) 성과를 달성함을 입증했습니다. 더 나아가, ARC-Chapter는 YouCook2 데이터셋의 조밀한 비디오 설명(Dense Video Captioning)과 같은 다운스트림 작업에서도 최고 성능을 향상시키는 탁월한 전이 가능성을 보여주었습니다.
English
The proliferation of hour-long videos (e.g., lectures, podcasts, documentaries) has intensified demand for efficient content structuring. However, existing approaches are constrained by small-scale training with annotations that are typical short and coarse, restricting generalization to nuanced transitions in long videos. We introduce ARC-Chapter, the first large-scale video chaptering model trained on over million-level long video chapters, featuring bilingual, temporally grounded, and hierarchical chapter annotations. To achieve this goal, we curated a bilingual English-Chinese chapter dataset via a structured pipeline that unifies ASR transcripts, scene texts, visual captions into multi-level annotations, from short title to long summaries. We demonstrate clear performance improvements with data scaling, both in data volume and label intensity. Moreover, we design a new evaluation metric termed GRACE, which incorporates many-to-one segment overlaps and semantic similarity, better reflecting real-world chaptering flexibility. Extensive experiments demonstrate that ARC-Chapter establishes a new state-of-the-art by a significant margin, outperforming the previous best by 14.0% in F1 score and 11.3% in SODA score. Moreover, ARC-Chapter shows excellent transferability, improving the state-of-the-art on downstream tasks like dense video captioning on YouCook2.
PDF162December 2, 2025