ChatPaper.aiChatPaper

UniVA: 오픈소스 차세대 비디오 범용 에이전트를 향하여

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

November 11, 2025
저자: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
cs.AI

초록

전문화된 AI 모델이 생성이나 이해와 같은 개별적인 비디오 작업에서는 뛰어난 성능을 보이지만, 실제 응용 환경에서는 이러한 기능들을 결합한 복잡하고 반복적인 워크플로우가 필요합니다. 이러한 격차를 해소하기 위해 우리는 차세대 비디오 범용 시스템을 위한 오픈소스이며 모든 능력을 갖춘 다중 에이전트 프레임워크인 UniVA를 소개합니다. UniVA는 비디오 이해, 분할, 편집, 생성을 통합된 워크플로우로 결합합니다. UniVA는 고도로 자동화되고 주도적인 워크플로우를 구동하는 Plan-and-Act 이중 에이전트 아키텍처를 채택합니다: 플래너 에이전트는 사용자 의도를 해석하여 구조화된 비디오 처리 단계로 분해하고, 실행자 에이전트는 모듈식 MCP 기반 도구 서버(분석, 생성, 편집, 추적 등)를 통해 이러한 단계들을 실행합니다. 계층적 다중 수준 메모리(글로벌 지식, 작업 문맥, 사용자별 선호도)를 통해 UniVA는 장기적인 추론, 문맥적 연속성, 그리고 에이전트 간 통신을 유지하여 완전한 추적 가능성을 갖춘 대화형 및 자기 성찰적 비디오 생성이 가능하게 합니다. 이러한 설계는 단일 목적 모델이나 통합 비디오-언어 모델로는 달성하기 어려웠던 반복적이고 다양한 조건(예: 텍스트/이미지/비디오 조건 생성 → 다중 라운드 편집 → 객체 분할 → 구성적 합성)의 비디오 워크플로우를 가능하게 합니다. 또한 이해, 편집, 분할, 생성에 이르는 다단계 비디오 작업을 포괄하는 벤치마크 제품군인 UniVA-Bench를 도입하여 이러한 에이전트 기반 비디오 시스템을 엄격하게 평가합니다. UniVA와 UniVA-Bench는 모두 완전히 오픈소스로 공개되어 차세대 멀티모달 AI 시스템을 위한 대화형, 에이전트 기반, 범용 비디오 인텔리전스 연구의 촉매제가 되는 것을 목표로 합니다. (https://univa.online/)
English
While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)
PDF372December 1, 2025