CutClaw: Edição de Vídeos Longos com Agência por meio de Sincronização Musical

Resumo

A edição de conteúdo de vídeo com sincronização de áudio constitui uma forma de arte digital produzida por humanos nas atuais redes sociais. No entanto, a natureza demorada e repetitiva da edição manual de vídeo tem sido um desafio tanto para cineastas quanto para criadores de conteúdo profissionais. Neste artigo, apresentamos o CutClaw, uma estrutura autónoma de múltiplos agentes concebida para editar horas de filmagem bruta em vídeos curtos significativos, que aproveita as capacidades de múltiplos Modelos de Linguagem Multimodal (MLLMs) como um sistema de agentes. O sistema produz vídeos com música sincronizada, seguindo instruções e com uma aparência visualmente atrativa. Em detalhe, a nossa abordagem começa por empregar uma decomposição multimodal hierárquica que captura tanto detalhes refinados como estruturas globais através das filmagens visuais e sonoras. Em seguida, para garantir a consistência narrativa, um Agente Dramaturgo orquestra todo o fluxo da narrativa e estrutura a história de longo prazo, ancorando cenas visuais a transições musicais. Finalmente, para construir um vídeo editado curto, os Agentes Editor e Revisor otimizam colaborativamente o corte final através da seleção de conteúdo visual refinado com base em critérios estéticos e semânticos rigorosos. Realizamos experiências detalhadas para demonstrar que o CutClaw supera significativamente os métodos de referência state-of-the-art na geração de vídeos de alta qualidade e alinhados com o ritmo. O código está disponível em: https://github.com/GVCLab/CutClaw.

English

Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.