ChatPaper.aiChatPaper

CutClaw:音楽同期による長時間エージェント型映像編集

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

March 31, 2026
著者: Shifang Zhao, Yihan Hu, Ying Shan, Yunchao Wei, Xiaodong Cun
cs.AI

要旨

映像コンテンツの編集と音声同期は、現在のソーシャルメディアにおいてデジタル人間製の芸術を形成しています。しかし、手動による映像編集の時間がかかり反復的な性質は、映画製作者やプロのコンテンツクリエイターにとって長年の課題でした。本論文では、長時間のローフッテージを意味のある短い動画に編集するために設計された自律型マルチエージェントフレームワーク「CutClaw」を紹介します。このフレームワークは、エージェントシステムとして複数のマルチモーダル言語モデル(MLLM)の能力を活用します。CutClawは、指示に従い、音楽と同期し、視覚的に魅力的な外観を持つ動画を生成します。詳細には、まず階層的なマルチモーダル分解を採用し、視覚および音声フッテージにおける細粒度の詳細と大域的な構造の両方を捕捉します。次に、物語の一貫性を確保するため、Playwriterエージェントがストーリーテリングの流れ全体を調整し、長期的なナラティブを構築して、視覚的シーンを音楽の変化に結びつけます。最後に、EditorエージェントとReviewerエージェントが協調して、厳格な美的および意味的基準に基づいて細粒度の視覚コンテンツを選択し、最終カットを最適化することで、編集された短い動画を構築します。詳細な実験により、CutClawが高品質でリズムに同期した動画の生成において、最先端のベースラインを大幅に上回ることを実証します。コードは以下で公開されています:https://github.com/GVCLab/CutClaw。
English
Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.
PDF281April 2, 2026