Aurora: ツール使用エージェントによる統合動画編集
Aurora: Unified Video Editing with a Tool-Using Agent
May 18, 2026
著者: Yongsheng Yu, Ziyun Zeng, Zhiyuan Xiao, Zhenghong Zhou, Hang Hua, Wei Xiong, Jiebo Luo
cs.AI
要旨
近年のビデオ編集モデルは、統一的な条件付け設計に収束しつつある。すなわち、単一の拡散トランスフォーマーがテキスト、ソースビデオ、参照画像を同時に処理し、一組の重みが置換、除去、スタイル変換、参照駆動による挿入をカバーする。この設計は柔軟であるが、ユーザーがすでにモデル対応のテキスト、参照画像、局所編集のための空間的根拠を提供していることを前提としており、実際のリクエストではこれらが欠落することが多い。本稿では、ツール拡張型視覚言語モデル(VLM)エージェントと統一型ビデオ拡散トランスフォーマーを組み合わせたエージェンティックビデオ編集フレームワーク「Aurora」を提案する。VLMエージェントは、生のユーザーリクエストを、トランスフォーマーの条件付けチャネルに整合する構造化編集計画にマッピングし、生成前にテキストおよび視覚の仕様不足を解消する。我々は、完全な編集計画と参照画像選択のための教師ありデータ、ならびにロバストなツール使用と指示洗練のための嗜好ペアを用いてVLMエージェントを訓練する。さらに、テキストおよび視覚の仕様不足下でのエージェント拡張型ビデオ編集を評価するためのAgentEdit-Benchを導入する。AgentEdit-Benchおよび既存の2つのビデオ編集ベンチマークにおける実験により、Auroraが指示のみのベースラインを改善し、VLMエージェントが互換性のある凍結ビデオ編集モデルに転移可能であることを示す。プロジェクトページ: https://yeates.github.io/Aurora-Page
English
Recent video editing models have converged on a unified conditioning design: a single diffusion transformer jointly consumes text, source video, and reference images, and one set of weights covers replacement, removal, style transfer, and reference-driven insertion. The design is flexible, but it assumes that the user already provides model-ready text, reference images, and spatial grounding for local edits, which real requests often omit. We present Aurora, an agentic video editing framework that pairs a tool-augmented vision-language model (VLM) agent with a unified video diffusion transformer. The VLM agent maps a raw user request to a structured edit plan aligned with the transformer's conditioning channels, thereby resolving textual and visual underspecification before generation. We train the VLM agent with supervised data for complete edit planning and reference-image selection, together with preference pairs for robust tool use and instruction refinement. We introduce AgentEdit-Bench to evaluate agent-enhanced video editing under textual and visual underspecification. Experiments on AgentEdit-Bench and two existing video editing benchmarks show that Aurora improves over instruction-only baselines and that the VLM agent transfers to compatible frozen video editing models. Project page: https://yeates.github.io/Aurora-Page