CutClaw: Edición de Vídeos de Horas de Duración Mediante Sincronización Musical con Agentes
CutClaw: Agentic Hours-Long Video Editing via Music Synchronization
March 31, 2026
Autores: Shifang Zhao, Yihan Hu, Ying Shan, Yunchao Wei, Xiaodong Cun
cs.AI
Resumen
La edición de contenido de vídeo con sincronización de audio constituye una forma de arte digital creada por humanos en las redes sociales actuales. Sin embargo, la naturaleza repetitiva y que consume tiempo de la edición manual de vídeo ha sido durante mucho tiempo un desafío tanto para cineastas como para creadores de contenido profesional. En este artículo, presentamos CutClaw, un marco autónomo multiagente diseñado para editar metraje en bruto de horas de duración y convertirlo en vídeos cortos significativos, que aprovecha las capacidades de múltiples Modelos de Lenguaje Multimodal (MLLMs) como sistema de agentes. Produce vídeos con música sincronizada, que siguen instrucciones y presentan una apariencia visualmente atractiva. En detalle, nuestro enfoque comienza empleando una descomposición multimodal jerárquica que captura tanto detalles de grano fino como estructuras globales a lo largo del metraje visual y auditivo. Luego, para garantizar la consistencia narrativa, un Agente Guionista orquesta todo el flujo de la historia y estructura la narrativa a largo plazo, anclando escenas visuales a los cambios musicales. Finalmente, para construir un vídeo editado corto, los Agentes Editor y Revisor optimizan colaborativamente el corte final mediante la selección de contenido visual de grano fino basado en criterios estéticos y semánticos rigurosos. Realizamos experimentos detallados que demuestran que CutClaw supera significativamente a los métodos de referencia más avanzados en la generación de vídeos de alta calidad y alineados rítmicamente. El código está disponible en: https://github.com/GVCLab/CutClaw.
English
Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.