CutClaw: Modifica Video di Ore con Sincronizzazione Musicale Basata su Agenti

Abstract

L'edizione di contenuti video con allineamento audio costituisce una forma d'arte digitale realizzata dall'uomo nell'attuale panorama dei social media. Tuttavia, la natura dispendiosa in termini di tempo e ripetitiva dell'edizione video manuale ha a lungo rappresentato una sfida sia per i cineasti che per i creatori di contenuti professionali. In questo articolo presentiamo CutClaw, un framework multi-agente autonomo progettato per trasformare riprese grezze di ore in video brevi e significativi, che sfrutta le capacità di modelli linguistici multimodali (MLLM) multipli come sistema di agenti. Il sistema produce video con musica sincronizzata, che seguono istruzioni specifiche e presentano un aspetto visivamente accattivante. Nel dettaglio, il nostro approccio inizia impiegando una scomposizione multimodale gerarchica che cattura sia i dettagli granulari che le strutture globali attraverso il materiale visivo e audio. Successivamente, per garantire la coerenza narrativa, un Agente Playwriter orchestra l'intero flusso narrativo e struttura la narrazione a lungo termine, ancorando le scene visive ai cambiamenti musicali. Infine, per costruire un video editato di breve durata, gli Agenti Editor e Reviewer ottimizzano collaborativamente il montaggio finale selezionando contenuti visivi granulari basandosi su rigorosi criteri estetici e semantici. Abbiamo condotto esperimenti dettagliati che dimostrano come CutClaw superi significativamente i baseline state-of-the-art nella generazione di video di alta qualità e allineati ritmicamente. Il codice è disponibile all'indirizzo: https://github.com/GVCLab/CutClaw.

English

Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.

CutClaw: Modifica Video di Ore con Sincronizzazione Musicale Basata su Agenti

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

Abstract

Support