ChatPaper.aiChatPaper

ARC-Chapter : Structuration de vidéos d'une heure en chapitres navigables et résumés hiérarchiques

ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

November 18, 2025
papers.authors: Junfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan
cs.AI

papers.abstract

La prolifération de vidéos d'une heure (par exemple, conférences, podcasts, documentaires) a intensifié la demande pour une structuration efficace du contenu. Cependant, les approches existantes sont limitées par un apprentissage à petite échelle avec des annotations généralement courtes et grossières, ce qui restreint la généralisation aux transitions nuancées dans les vidéos longues. Nous présentons ARC-Chapter, le premier modèle de chapitrage vidéo à grande échelle entraîné sur plus d'un million de chapitres de vidéos longues, comportant des annotations de chapitres bilingues, temporellement ancrées et hiérarchiques. Pour atteindre cet objectif, nous avons constitué un jeu de données de chapitres bilingues anglais-chinois via un pipeline structuré qui unifie les transcriptions ASR, les textes scéniques et les légendes visuelles en annotations multi-niveaux, allant des titres courts aux longs résumés. Nous démontrons des améliorations nettes des performances avec l'augmentation des données, tant en volume qu'en intensité des annotations. De plus, nous concevons une nouvelle métrique d'évaluation appelée GRACE, qui intègre les chevauchements de segments plusieurs-à-un et la similarité sémantique, reflétant mieux la flexibilité réelle du chapitrage. Des expériences approfondies démontrent qu'ARC-Chapter établit un nouvel état de l'art avec une avance significative, surpassant le précédent meilleur modèle de 14,0 % en score F1 et de 11,3 % en score SODA. De plus, ARC-Chapter montre une excellente transférabilité, améliorant l'état de l'art sur des tâches en aval comme le sous-titrage dense de vidéos sur YouCook2.
English
The proliferation of hour-long videos (e.g., lectures, podcasts, documentaries) has intensified demand for efficient content structuring. However, existing approaches are constrained by small-scale training with annotations that are typical short and coarse, restricting generalization to nuanced transitions in long videos. We introduce ARC-Chapter, the first large-scale video chaptering model trained on over million-level long video chapters, featuring bilingual, temporally grounded, and hierarchical chapter annotations. To achieve this goal, we curated a bilingual English-Chinese chapter dataset via a structured pipeline that unifies ASR transcripts, scene texts, visual captions into multi-level annotations, from short title to long summaries. We demonstrate clear performance improvements with data scaling, both in data volume and label intensity. Moreover, we design a new evaluation metric termed GRACE, which incorporates many-to-one segment overlaps and semantic similarity, better reflecting real-world chaptering flexibility. Extensive experiments demonstrate that ARC-Chapter establishes a new state-of-the-art by a significant margin, outperforming the previous best by 14.0% in F1 score and 11.3% in SODA score. Moreover, ARC-Chapter shows excellent transferability, improving the state-of-the-art on downstream tasks like dense video captioning on YouCook2.
PDF162December 2, 2025