ChatPaper.aiChatPaper

ARC-Chapter: Strutturazione di Video della Durata di un'Ora in Capitoli Navigabili e Riassunti Gerarchici

ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

November 18, 2025
Autori: Junfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan
cs.AI

Abstract

La proliferazione di video della durata di un'ora (ad esempio lezioni, podcast, documentari) ha intensificato la richiesta di una strutturazione efficiente dei contenuti. Tuttavia, gli approcci esistenti sono limitati da un addestramento su piccola scala con annotazioni tipicamente brevi e grossolane, il che ne restringe la generalizzazione alle transizioni sfumate nei video lunghi. Introduciamo ARC-Chapter, il primo modello di suddivisione in capitoli video su larga scala addestrato su oltre un milione di capitoli di video lunghi, caratterizzato da annotazioni di capitoli bilingui, temporalmente ancorate e gerarchiche. Per raggiungere questo obiettivo, abbiamo curato un dataset bilingue inglese-cinese di capitoli attraverso una pipeline strutturata che unisce trascrizioni ASR, testi delle scene e didascalie visive in annotazioni multilivello, dal titolo breve ai riassunti lunghi. Dimostriamo chiari miglioramenti delle prestazioni con la scalabilità dei dati, sia in volume di dati che in intensità di etichettatura. Inoltre, progettiamo una nuova metrica di valutazione denominata GRACE, che incorpora sovrapposizioni di segmenti many-to-one e similarità semantica, riflettendo meglio la flessibilità della suddivisione in capitoli nel mondo reale. Esperimenti estensivi dimostrano che ARC-Chapter stabilisce un nuovo stato dell'arte con un margine significativo, superando il precedente migliore del 14,0% nell'F1-score e dell'11,3% nel SODA score. Inoltre, ARC-Chapter mostra un'eccellente trasferibilità, migliorando lo stato dell'arte su compiti downstream come la descrizione video densa su YouCook2.
English
The proliferation of hour-long videos (e.g., lectures, podcasts, documentaries) has intensified demand for efficient content structuring. However, existing approaches are constrained by small-scale training with annotations that are typical short and coarse, restricting generalization to nuanced transitions in long videos. We introduce ARC-Chapter, the first large-scale video chaptering model trained on over million-level long video chapters, featuring bilingual, temporally grounded, and hierarchical chapter annotations. To achieve this goal, we curated a bilingual English-Chinese chapter dataset via a structured pipeline that unifies ASR transcripts, scene texts, visual captions into multi-level annotations, from short title to long summaries. We demonstrate clear performance improvements with data scaling, both in data volume and label intensity. Moreover, we design a new evaluation metric termed GRACE, which incorporates many-to-one segment overlaps and semantic similarity, better reflecting real-world chaptering flexibility. Extensive experiments demonstrate that ARC-Chapter establishes a new state-of-the-art by a significant margin, outperforming the previous best by 14.0% in F1 score and 11.3% in SODA score. Moreover, ARC-Chapter shows excellent transferability, improving the state-of-the-art on downstream tasks like dense video captioning on YouCook2.
PDF162December 2, 2025