UniVA: オープンソース次世代ビデオジェネラリストを目指すユニバーサルビデオエージェント
UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
November 11, 2025
著者: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
cs.AI
要旨
専門特化型のAIモデルは映像生成や理解といった個別タスクでは優れる一方、現実世界の応用ではこれらの機能を組み合わせた複雑で反復的なワークフローが求められます。この隔たりを埋めるため、我々は次世代ビデオ汎用AIのためのオープンソース・全能型マルチエージェントフレームワーク「UniVA」を提案します。UniVAは映像理解、セグメンテーション、編集、生成を統合した一貫性のあるワークフローを実現します。Plan-and-Actデュアルエージェントアーキテクチャを採用し、高度に自動化された能動的ワークフローを推進:プランナーエージェントがユーザーの意図を解釈して構造化された映像処理ステップに分解し、エグゼキューターエージェントがモジュール式のMCPベースツールサーバー(分析、生成、編集、追跡など)を通じて実行します。階層型マルチレベルメモリ(グローバル知識、タスクコンテキスト、ユーザー固有の選好)により、長期的推論・文脈の一貫性・エージェント間通信を維持し、完全なトレーサビリティを持つ対話的かつ自己内省的な映像制作を実現します。この設計により、従来は単機能モデルやモノリシックな映像言語モデルでは煩雑だった反復的・任意条件付き映像ワークフロー(例:テキスト/画像/映像条件付き生成 → マルチラウンド編集 → 物体セグメンテーション → 合成的合成)が可能になります。さらに、理解・編集・セグメンテーション・生成にわたる多段階映像タスクのベンチマークスイート「UniVA-Bench」を導入し、このようなエージェント型映像システムを厳密に評価します。UniVAとUniVA-Benchは完全オープンソースとして公開され、次世代マルチモーダルAIシステムのための対話的・エージェント的・汎用的な映像知能の研究促進を目指します。(https://univa.online/)
English
While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)