UniVA: Universele Video Agent in de Richting van een Open-Source Video Generalist van de Nieuwe Generatie
UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
November 11, 2025
Auteurs: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
cs.AI
Samenvatting
Hoewel gespecialiseerde AI-models uitblinken in geïsoleerde videotaken zoals generatie of begrip, vereisen real-world toepassingen complexe, iteratieve workflows die deze capaciteiten combineren. Om deze kloof te overbruggen, introduceren we UniVA, een open-source, veelzijdig multi-agent raamwerk voor de volgende generatie videogeneralisten, dat videobegrip, segmentatie, bewerking en generatie verenigt in samenhangende workflows. UniVA hanteert een Plan-and-Act dual-agent architectuur die een hoogst geautomatiseerde en proactieve workflow aandrijft: een planner-agent interpreteert gebruikersintenties en decomposeert deze in gestructureerde videoverwerkingsstappen, terwijl uitvoerder-agenten deze stappen uitvoeren via modulaire, MCP-gebaseerde toolservers (voor analyse, generatie, bewerking, tracking, etc.). Door middel van een hiërarchisch, multi-level geheugen (globale kennis, taakcontext en gebruikersspecifieke voorkeuren) handhaaft UniVA langetermijnredenering, contextuele continuïteit en inter-agent communicatie, waardoor interactieve en zelfreflecterende videocreatie met volledige traceerbaarheid mogelijk wordt. Dit ontwerp maakt iteratieve en voorwaardenvrije videoworkflows mogelijk (bijv. op tekst/afbeelding/video-geconditioneerde generatie → meerronde bewerking → objectsegmentatie → compositionele synthese) die voorheen omslachtig waren om te bereiken met enkelvoudige modellen of monolitische video-taalmodellen. We introduceren ook UniVA-Bench, een benchmark suite van meerstaps videotaken die begrip, bewerking, segmentatie en generatie omspant, om dergelijke agent-gebaseerde videosystemen rigoureus te evalueren. Zowel UniVA als UniVA-Bench zijn volledig open-source, met als doel onderzoek te katalyseren naar interactieve, agent-gebaseerde en algemene video-intelligentie voor de volgende generatie multimodale AI-systemen. (https://univa.online/)
English
While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)