ChatPaper.aiChatPaper

ARC-Kapitel: Strukturierung von stundenlangen Videos in navigierbare Kapitel und hierarchische Zusammenfassungen

ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

November 18, 2025
papers.authors: Junfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan
cs.AI

papers.abstract

Die Verbreitung von stundenlangen Videos (z.B. Vorlesungen, Podcasts, Dokumentationen) hat die Nachfrage nach effizienten Methoden zur Inhaltsstrukturierung verstärkt. Bisherige Ansätze sind jedoch durch Trainingsdaten mit typischerweise kurzen und groben Annotationen eingeschränkt, was die Generalisierbarkeit auf nuancenreiche Übergänge in langen Videos beeinträchtigt. Wir stellen ARC-Chapter vor, das erste großskalige Video-Kapitelungsmodell, das mit über einer Million Kapitelanotationen für lange Videos trainiert wurde und sich durch bilinguale, zeitlich verankerte sowie hierarchische Kapitelannotationen auszeichnet. Um dieses Ziel zu erreichen, haben wir einen bilingualen englisch-chinesischen Kapiteldatensatz durch eine strukturierte Pipeline erstellt, die ASR-Transkripte, Szenentexte und visuelle Beschreibungen zu mehrstufigen Annotationen – von kurzen Titeln bis zu langen Zusammenfassungen – vereint. Wir zeigen deutliche Leistungsverbesserungen durch Skalierung der Datenmenge und Annotationsdichte. Darüber hinaus entwickeln wir eine neue Evaluierungsmetrik namens GRACE, die Many-to-One-Segmentüberlappungen und semantische Ähnlichkeit einbezieht und damit die Flexibilität realer Kapitelungsszenarien besser abbildet. Umfangreiche Experimente belegen, dass ARC-Chapter mit deutlichem Abstand einen neuen State-of-the-Art etabliert und das bisher beste Modell um 14,0 % im F1-Score und 11,3 % im SODA-Score übertrifft. Zudem zeigt ARC-Chapter ausgezeichnete Transferierbarkeit und verbessert den State-of-the-Art bei nachgelagerten Aufgaben wie der dichten Videobeschreibung auf YouCook2.
English
The proliferation of hour-long videos (e.g., lectures, podcasts, documentaries) has intensified demand for efficient content structuring. However, existing approaches are constrained by small-scale training with annotations that are typical short and coarse, restricting generalization to nuanced transitions in long videos. We introduce ARC-Chapter, the first large-scale video chaptering model trained on over million-level long video chapters, featuring bilingual, temporally grounded, and hierarchical chapter annotations. To achieve this goal, we curated a bilingual English-Chinese chapter dataset via a structured pipeline that unifies ASR transcripts, scene texts, visual captions into multi-level annotations, from short title to long summaries. We demonstrate clear performance improvements with data scaling, both in data volume and label intensity. Moreover, we design a new evaluation metric termed GRACE, which incorporates many-to-one segment overlaps and semantic similarity, better reflecting real-world chaptering flexibility. Extensive experiments demonstrate that ARC-Chapter establishes a new state-of-the-art by a significant margin, outperforming the previous best by 14.0% in F1 score and 11.3% in SODA score. Moreover, ARC-Chapter shows excellent transferability, improving the state-of-the-art on downstream tasks like dense video captioning on YouCook2.
PDF162December 2, 2025