UniVA: Agente de Video Universal hacia un Generalista de Video de Próxima Generación de Código Abierto
UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist
November 11, 2025
Autores: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
cs.AI
Resumen
Si bien los modelos de IA especializados sobresalen en tareas de video aisladas como la generación o la comprensión, las aplicaciones del mundo real exigen flujos de trabajo complejos e iterativos que combinen estas capacidades. Para cerrar esta brecha, presentamos UniVA, un marco de trabajo multiagente, omnicapaz y de código abierto para generalistas de video de próxima generación que unifica la comprensión, segmentación, edición y generación de video en flujos de trabajo cohesivos. UniVA emplea una arquitectura de doble agente Planificar y Actuar que impulsa un flujo de trabajo altamente automatizado y proactivo: un agente planificador interpreta las intenciones del usuario y las descompone en pasos estructurados de procesamiento de video, mientras que los agentes ejecutores los llevan a cabo a través de servidores de herramientas modulares basados en MCP (para análisis, generación, edición, seguimiento, etc.). Mediante una memoria jerárquica multinivel (conocimiento global, contexto de la tarea y preferencias específicas del usuario), UniVA sostiene el razonamiento de largo alcance, la continuidad contextual y la comunicación entre agentes, permitiendo una creación de video interactiva y autorreflexiva con trazabilidad completa. Este diseño permite flujos de trabajo de video iterativos y condicionados de cualquier tipo (por ejemplo, generación condicionada por texto/imagen/video → edición en múltiples rondas → segmentación de objetos → síntesis composicional) que anteriormente eran engorrosos de lograr con modelos de un único propósito o con modelos monolíticos de video-lenguaje. También presentamos UniVA-Bench, un conjunto de benchmarks de tareas de video de múltiples pasos que abarcan comprensión, edición, segmentación y generación, para evaluar rigurosamente dichos sistemas de video agentivos. Tanto UniVA como UniVA-Bench son completamente de código abierto, con el objetivo de catalizar la investigación sobre inteligencia de video interactiva, agentiva y de propósito general para la próxima generación de sistemas de IA multimodal. (https://univa.online/)
English
While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)