ARC-Chapter: Estructuración de Videos de Una Hora en Capítulos Navegables y Resúmenes Jerárquicos
ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries
November 18, 2025
Autores: Junfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan
cs.AI
Resumen
La proliferación de videos de una hora de duración (por ejemplo, conferencias, pódcasts, documentales) ha intensificado la demanda de una estructuración eficiente del contenido. Sin embargo, los enfoques existentes están limitados por entrenamientos a pequeña escala con anotaciones típicamente cortas y generales, lo que restringe la generalización a transiciones matizadas en videos largos. Presentamos ARC-Chapter, el primer modelo de capitulación de video a gran escala entrenado con más de un millón de capítulos de videos largos, que presenta anotaciones de capítulos bilingües, temporales y jerárquicas. Para lograr este objetivo, compilamos un conjunto de datos bilingüe inglés-chino de capítulos mediante una canalización estructurada que unifica transcripciones ASR, textos de escena y descripciones visuales en anotaciones multinivel, desde títulos cortos hasta resúmenes largos. Demostramos mejoras claras en el rendimiento con el escalado de datos, tanto en volumen de datos como en intensidad de etiquetas. Además, diseñamos una nueva métrica de evaluación denominada GRACE, que incorpora superposiciones de segmentos de muchos a uno y similitud semántica, reflejando mejor la flexibilidad de la capitulación en escenarios reales. Experimentos exhaustivos demuestran que ARC-Chapter establece un nuevo estado del arte por un margen significativo, superando al mejor anterior en un 14.0% en puntuación F1 y un 11.3% en puntuación SODA. Además, ARC-Chapter muestra una excelente transferibilidad, mejorando el estado del arte en tareas posteriores como la descripción densa de videos en YouCook2.
English
The proliferation of hour-long videos (e.g., lectures, podcasts, documentaries) has intensified demand for efficient content structuring. However, existing approaches are constrained by small-scale training with annotations that are typical short and coarse, restricting generalization to nuanced transitions in long videos. We introduce ARC-Chapter, the first large-scale video chaptering model trained on over million-level long video chapters, featuring bilingual, temporally grounded, and hierarchical chapter annotations. To achieve this goal, we curated a bilingual English-Chinese chapter dataset via a structured pipeline that unifies ASR transcripts, scene texts, visual captions into multi-level annotations, from short title to long summaries. We demonstrate clear performance improvements with data scaling, both in data volume and label intensity. Moreover, we design a new evaluation metric termed GRACE, which incorporates many-to-one segment overlaps and semantic similarity, better reflecting real-world chaptering flexibility. Extensive experiments demonstrate that ARC-Chapter establishes a new state-of-the-art by a significant margin, outperforming the previous best by 14.0% in F1 score and 11.3% in SODA score. Moreover, ARC-Chapter shows excellent transferability, improving the state-of-the-art on downstream tasks like dense video captioning on YouCook2.