ChatPaper.aiChatPaper

CutClaw: Agentische stundenlange Videobearbeitung durch Musiksynchronisation

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

March 31, 2026
Autoren: Shifang Zhao, Yihan Hu, Ying Shan, Yunchao Wei, Xiaodong Cun
cs.AI

Zusammenfassung

Die Bearbeitung von Videoinhalten mit Audiounterstützung stellt eine digitale, menschengemachte Kunstform in den aktuellen Sozialen Medien dar. Dennoch stellt der zeitaufwändige und repetitive Charakter manueller Videobearbeitung seit langem eine Herausforderung für Filmemacher und professionelle Content-Ersteller gleichermaßen dar. In diesem Beitrag stellen wir CutClaw vor, ein autonomes Multi-Agenten-System, das entwickelt wurde, um stundenlanges Rohmaterial in aussagekräftige Kurzvideos zu schneiden. Es nutzt die Fähigkeiten mehrerer multimodaler Sprachmodelle (MLLMs) als Agentensystem. Das System produziert Videos mit synchronisierter Musik, die Anweisungen folgen und visuell ansprechend wirken. Im Einzelnen beginnt unser Ansatz mit einer hierarchischen multimodalen Zerlegung, die sowohl feinkörnige Details als auch globale Strukturen in visuellen und audiovisuellen Aufnahmen erfasst. Um die narrative Konsistenz zu gewährleisten, orchestriert ein Playwriter-Agent den gesamten Erzählfluss und strukturiert die langfristige Narration, indem er visuelle Szenen an musikalische Übergänge anbindet. Schließlich optimieren Editor- und Reviewer-Agenten kollaborativ den endgültigen Schnitt, indem sie feinkörnige visuelle Inhalte basierend auf strengen ästhetischen und semantischen Kriterien auswählen, um ein kurzes bearbeitetes Video zu erstellen. Wir führen detaillierte Experimente durch, die zeigen, dass CutClaw state-of-the-art Baseline-Methoden bei der Erzeugung hochwertiger, rhythmusorientierter Videos signifikant übertrifft. Der Code ist verfügbar unter: https://github.com/GVCLab/CutClaw.
English
Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.
PDF281April 2, 2026