CutClaw: Агентное редактирование многочасового видео через синхронизацию с музыкой

Аннотация

Редактирование видеоконтента с синхронизацией аудио формирует цифровое искусство, создаваемое человеком, в современных социальных сетях. Однако трудоемкий и повторяющийся характер ручного видеомонтажа долгое время оставался проблемой как для кинематографистов, так и для профессиональных создателей контента. В данной статье мы представляем CutClaw — автономную мультиагентную систему, предназначенную для преобразования многочасовых исходных видеоматериалов в осмысленные короткие видео. Данная система использует возможности нескольких мультимодальных языковых моделей (MLLM) в качестве агентов. Она создает видео с синхронизированной музыкой, следующими инструкциям и визуально привлекательными характеристиками. В деталях, наш подход начинается с применения иерархической мультимодальной декомпозиции, которая захватывает как детализированные особенности, так и глобальные структуры визуальных и аудиоматериалов. Затем, для обеспечения нарративной целостности, Агент-Сценарист выстраивает общий поток повествования и структурирует долгосрочную сюжетную линию, привязывая визуальные сцены к музыкальным переходам. Наконец, для создания короткого смонтированного видео Агент-Редактор и Агент-Рецензент совместно оптимизируют финальный монтаж, отбирая детализированный визуальный контент на основе строгих эстетических и семантических критериев. Мы провели детальные эксперименты, которые демонстрируют, что CutClaw существенно превосходит современные базовые методы в генерации высококачественных видео, синхронизированных с ритмом. Код доступен по адресу: https://github.com/GVCLab/CutClaw.

English

Editing the video content with audio alignment forms a digital human-made art in current social media. However, the time-consuming and repetitive nature of manual video editing has long been a challenge for filmmakers and professional content creators alike. In this paper, we introduce CutClaw, an autonomous multi-agent framework designed to edit hours-long raw footage into meaningful short videos that leverages the capabilities of multiple Multimodal Language Models~(MLLMs) as an agent system. It produces videos with synchronized music, followed by instructions, and a visually appealing appearance. In detail, our approach begins by employing a hierarchical multimodal decomposition that captures both fine-grained details and global structures across visual and audio footage. Then, to ensure narrative consistency, a Playwriter Agent orchestrates the whole storytelling flow and structures the long-term narrative, anchoring visual scenes to musical shifts. Finally, to construct a short edited video, Editor and Reviewer Agents collaboratively optimize the final cut via selecting fine-grained visual content based on rigorous aesthetic and semantic criteria. We conduct detailed experiments to demonstrate that CutClaw significantly outperforms state-of-the-art baselines in generating high-quality, rhythm-aligned videos. The code is available at: https://github.com/GVCLab/CutClaw.

CutClaw: Агентное редактирование многочасового видео через синхронизацию с музыкой

CutClaw: Agentic Hours-Long Video Editing via Music Synchronization

Аннотация

Support