ARC-Chapter: Het structureren van uur-lange video's in navigeerbare hoofdstukken en hiërarchische samenvattingen
ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries
November 18, 2025
Auteurs: Junfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan
cs.AI
Samenvatting
De opkomst van uur-lange video's (zoals colleges, podcasts, documentaires) heeft de vraag naar efficiënte contentstructurering geïntensiveerd. Bestaande methoden worden echter beperkt door kleinschalige training met annotaties die doorgaans kort en grof zijn, wat de generalisatie naar genuanceerde overgangen in lange video's belemmert. Wij introduceren ARC-Chapter, het eerste grootschalige video-hoofdstukkenmodel getraind op meer dan miljoen-niveau lange video-hoofdstukken, met tweetalige, temporeel verankerde en hiërarchische hoofdstukannotaties. Om dit doel te bereiken, hebben we een tweetalig Engels-Chinees hoofdstukkendataset samengesteld via een gestructureerde pijplijn die automatische spraakherkenningstranscripten, scèneteksten en visuele bijschriften verenigt tot meerniveau-annotaties, van korte titels tot lange samenvattingen. We tonen duidelijke prestatieverbeteringen aan door dataschaalvergroting, zowel in datavolume als labelintensiteit. Bovendien ontwerpen we een nieuwe evaluatiemetriek genaamd GRACE, die veel-op-één-segmentoverlappingen en semantische gelijkenis incorporeert, waardoor de flexibiliteit van hoofdstukindeling in de praktijk beter wordt weerspiegeld. Uitgebreide experimenten tonen aan dat ARC-Chapter met een aanzienlijke marge een nieuwe state-of-the-art vestigt, waarbij het de vorige beste methode met 14,0% in F1-score en 11,3% in SODA-score overtreft. Bovendien toont ARC-Chapter uitstekende overdraagbaarheid door de state-of-the-art te verbeteren voor downstreamtaken zoals dichte videobijschrijving op YouCook2.
English
The proliferation of hour-long videos (e.g., lectures, podcasts, documentaries) has intensified demand for efficient content structuring. However, existing approaches are constrained by small-scale training with annotations that are typical short and coarse, restricting generalization to nuanced transitions in long videos. We introduce ARC-Chapter, the first large-scale video chaptering model trained on over million-level long video chapters, featuring bilingual, temporally grounded, and hierarchical chapter annotations. To achieve this goal, we curated a bilingual English-Chinese chapter dataset via a structured pipeline that unifies ASR transcripts, scene texts, visual captions into multi-level annotations, from short title to long summaries. We demonstrate clear performance improvements with data scaling, both in data volume and label intensity. Moreover, we design a new evaluation metric termed GRACE, which incorporates many-to-one segment overlaps and semantic similarity, better reflecting real-world chaptering flexibility. Extensive experiments demonstrate that ARC-Chapter establishes a new state-of-the-art by a significant margin, outperforming the previous best by 14.0% in F1 score and 11.3% in SODA score. Moreover, ARC-Chapter shows excellent transferability, improving the state-of-the-art on downstream tasks like dense video captioning on YouCook2.