CutClaw : Édition vidéo agentique de longue durée par synchronisation musicale

Résumé

L'édition de contenu vidéo avec synchronisation audio constitue une forme d'art numérique créée par l'homme dans les médias sociaux actuels. Cependant, la nature chronophage et répétitive du montage vidéo manuel a longtemps représenté un défi pour les cinéastes et les créateurs de contenu professionnels. Dans cet article, nous présentons CutClaw, un cadre multi-agent autonome conçu pour transformer des rushs de plusieurs heures en vidéos courtes significatives, en exploitant les capacités de multiples modèles de langage multimodaux (MLLM) organisés en système d'agents. Il produit des vidéos avec une musique synchronisée, conformes à des instructions, et d'apparence visuellement attrayante. En détail, notre approche commence par employer une décomposition multimodale hiérarchique qui capture à la fois les détails fins et les structures globales des séquences visuelles et audio. Ensuite, pour assurer une cohérence narrative, un Agent Scénariste orchestre le flux narratif global et structure le récit à long terme, en ancrant les scènes visuelles aux transitions musicales. Enfin, pour construire une vidéo montée courte, des Agents Monteur et Réviseur optimisent collaborativement le montage final en sélectionnant le contenu visuel granulaire sur la base de critères esthétiques et sémantiques rigoureux. Nous menons des expériences détaillées qui démontrent que CutClaw surpasse significativement les méthodes de référence les plus avancées dans la génération de vidéos de haute qualité et synchronisées avec le rythme. Le code est disponible à l'adresse : https://github.com/GVCLab/CutClaw.

English

Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.

CutClaw : Édition vidéo agentique de longue durée par synchronisation musicale

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

Résumé

Support