CutClaw: Urenlange Agent-Gestuurde Videobewerking via Muzieksynchronisatie

Samenvatting

Het bewerken van videomateriaal met audiovoeging vormt een door digitale menselijke creatie gevormde kunst in hedendaagse sociale media. De tijdrovende en repetitieve aard van handmatige videobewerking is echter al lang een uitdaging voor zowel filmmakers als professionele contentmakers. In dit artikel introduceren we CutClaw, een autonoom multi-agent raamwerk ontworpen om urenlang ruw beeldmateriaal te bewerken tot betekenisvolle korte video's, dat gebruikmaakt van de capaciteiten van meerdere Multimodale Taalmodellen (MLLM's) als een agentsysteem. Het produceert video's met gesynchroniseerde muziek, die instructies volgen en een visueel aantrekkelijk uiterlijk hebben. Onze aanpak begint met een hiërarchische multimodale decompositie die zowel fijnkorrelige details als globale structuren in visueel en audiomateriaal vastlegt. Vervolgens zorgt een Playwriter Agent voor narratieve consistentie door de gehele verhaalstroom te orkestreren en het langetermijnverhaal te structureren, waarbij visuele scènes worden verankerd aan muzikale veranderingen. Ten slotte optimaliseren Editor- en Reviewer Agents gezamenlijk de uiteindelijke montage door fijnkorrelige visuele content te selecteren op basis van rigoureuze esthetische en semantische criteria. We voeren gedetailleerde experimenten uit die aantonen dat CutClaw aanzienlijk beter presteert dan state-of-the-art basismethoden in het genereren van hoogwaardige, ritme-afgestemde video's. De code is beschikbaar op: https://github.com/GVCLab/CutClaw.

English

Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.

CutClaw: Urenlange Agent-Gestuurde Videobewerking via Muzieksynchronisatie

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

Samenvatting

Support