컷클로: 음악 동기화를 통한 장시간 에이전트 기반 영상 편집
CutClaw: Agentic Hours-Long Video Editing via Music Synchronization
March 31, 2026
저자: Shifang Zhao, Yihan Hu, Ying Shan, Yunchao Wei, Xiaodong Cun
cs.AI
초록
오디오 정렬을 통한 영상 콘텐츠 편집은 현재 소셜 미디어에서 디지털 방식의 인간 예술을 형성하고 있습니다. 그러나 수동 영상 편집의 시간 소모적이고 반복적인 특성은 영화 제작자와 전문 콘텐츠 크리에이터 모두에게 오랫동안 과제로 남아있었습니다. 본 논문에서는 여러 멀티모달 언어 모델(Multimodal Language Models, MLLMs)의 능력을 에이전트 시스템으로 활용하여 수 시간 분량의 원본 영상을 의미 있는 짧은 동영상으로 편집하도록 설계된 자율 다중 에이전트 프레임워크인 CutClaw를 소개합니다. 이 프레임워크는 지시에 따라 음악과 동기화되고 시각적으로 매력적인 외관을 가진 동영상을 생성합니다. 상세히 설명하면, 우리의 접근 방식은 시각 및 오디오 영상 전반에 걸친 세부적인 디테일과 전역적 구조를 모두 포착하는 계층적 멀티모탈 분해를 적용하는 것으로 시작합니다. 그런 다음 이야기의 일관성을 보장하기 위해 Playwriter 에이전트가 전체 스토리텔링 흐름을 구성하고 장기적 서사를 구조화하며 시각적 장면을 음악적 변화에 고정합니다. 마지막으로, 짧은 편집 영상을 구성하기 위해 Editor 및 Reviewer 에이전트가 엄격한 미적 및 의미론적 기준에 기반하여 세분화된 시각적 콘텐츠를 선택함으로써 협력적으로 최종 컷을 최적화합니다. 우리는 상세한 실험을 통해 CutClaw가 고품질의 리듬에 맞춰진 동영상 생성에 있어 최첨단 베이스라인을 크게 능가함을 입증합니다. 코드는 https://github.com/GVCLab/CutClaw 에서 확인할 수 있습니다.
English
Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.