ChatPaper.aiChatPaper

ARC-Chapter: 1時間規模の動画をナビゲーション可能な章と階層的な要約へ構造化

ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

November 18, 2025
著者: Junfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan
cs.AI

要旨

長時間動画(講義、ポッドキャスト、ドキュメンタリーなど)の普及に伴い、効率的なコンテンツ構造化への需要が高まっている。しかし既存手法は、短く粗いアノテーションによる小規模トレーニングに制約され、長時間動画の微妙な転換への一般化が妨げられていた。本研究では、100万規模の長時間動画チャプターでトレーニングされた初の大規模ビデオチャプター分割モデル「ARC-Chapter」を提案する。本モデルは、二言語対応、時間的接地、階層的チャプターアノテーションを特徴とする。これを実現するため、ASR文字起こし、シーンテキスト、視覚的キャプションを統合する構造化パイプラインにより、短いタイトルから長い要約まで多段階のアノテーションを付与した日英二言語チャプターデータセットを構築した。データ量とラベル密度のスケーリングによる明確な性能向上を実証し、さらに現実のチャプター分割の柔軟性を反映した新評価指標「GRACE」を設計した。これは多対一セグメント重複と意味的類似度を統合する指標である。大規模実験により、ARC-ChapterはF1スコアで14.0%、SODAスコアで11.3%という大幅な差で従来の最高性能を上回り、新たなstate-of-the-artを確立した。さらにYouCook2における高密度ビデオキャプション生成などの下流タスクでも優れた転移性能を示し、既存の最高性能を更新した。
English
The proliferation of hour-long videos (e.g., lectures, podcasts, documentaries) has intensified demand for efficient content structuring. However, existing approaches are constrained by small-scale training with annotations that are typical short and coarse, restricting generalization to nuanced transitions in long videos. We introduce ARC-Chapter, the first large-scale video chaptering model trained on over million-level long video chapters, featuring bilingual, temporally grounded, and hierarchical chapter annotations. To achieve this goal, we curated a bilingual English-Chinese chapter dataset via a structured pipeline that unifies ASR transcripts, scene texts, visual captions into multi-level annotations, from short title to long summaries. We demonstrate clear performance improvements with data scaling, both in data volume and label intensity. Moreover, we design a new evaluation metric termed GRACE, which incorporates many-to-one segment overlaps and semantic similarity, better reflecting real-world chaptering flexibility. Extensive experiments demonstrate that ARC-Chapter establishes a new state-of-the-art by a significant margin, outperforming the previous best by 14.0% in F1 score and 11.3% in SODA score. Moreover, ARC-Chapter shows excellent transferability, improving the state-of-the-art on downstream tasks like dense video captioning on YouCook2.
PDF162December 2, 2025