UniVA : Agent Vidéo Universel vers un Généraliste Vidéo Nouvelle Génération Open-Source
UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
November 11, 2025
papers.authors: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
cs.AI
papers.abstract
Alors que les modèles d'IA spécialisés excellent dans des tâches vidéo isolées comme la génération ou la compréhension, les applications réelles exigent des workflows complexes et itératifs combinant ces capacités. Pour combler cette lacune, nous présentons UniVA, un framework multi-agent open-source et omni-capable pour les généralistes vidéo de nouvelle génération qui unifie la compréhension, la segmentation, l'édition et la génération vidéo en workflows cohérents. UniVA utilise une architecture bi-agent Planifier-et-Agir qui pilote un workflow hautement automatisé et proactif : un agent planificateur interprète les intentions utilisateur et les décompose en étapes structurées de traitement vidéo, tandis que des agents exécuteurs les mettent en œuvre via des serveurs d'outils modulaires basés sur MCP (pour l'analyse, la génération, l'édition, le suivi, etc.). Grâce à une mémoire hiérarchique multi-niveaux (connaissances globales, contexte de tâche et préférences utilisateur spécifiques), UniVA maintient un raisonnement de long terme, une continuité contextuelle et une communication inter-agents, permettant une création vidéo interactive et autoréflexive avec une traçabilité complète. Cette conception permet des workflows vidéo itératifs et conditionnables (par exemple, génération conditionnée par texte/image/vidéo → édition multi-tours → segmentation d'objets → synthèse compositionnelle) auparavant laborieux à réaliser avec des modèles mono-usages ou des modèles vidéo-langage monolithiques. Nous présentons également UniVA-Bench, une suite de référence de tâches vidéo multi-étapes couvrant la compréhension, l'édition, la segmentation et la génération, pour évaluer rigoureusement ces systèmes vidéo agentiques. UniVA et UniVA-Bench sont entièrement open-source, visant à catalyser la recherche sur l'intelligence vidéo interactive, agentique et généraliste pour la prochaine génération de systèmes IA multimodaux. (https://univa.online/)
English
While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)