UniVA: Agente de Vídeo Universal para um Generalista de Vídeo de Próxima Geração de Código Aberto

Resumo

Embora os modelos de IA especializados se destaquem em tarefas isoladas de vídeo, como geração ou compreensão, as aplicações do mundo real exigem fluxos de trabalho complexos e iterativos que combinam essas capacidades. Para preencher essa lacuna, apresentamos o UniVA, uma estrutura de multiagente de código aberto e onipresente para generalistas de vídeo de próxima geração que unifica compreensão, segmentação, edição e geração de vídeo em fluxos de trabalho coesos. O UniVA emprega uma arquitetura de agente duplo Planejar-e-Agir que conduz um fluxo de trabalho altamente automatizado e proativo: um agente planejador interpreta as intenções do usuário e as decompõe em etapas estruturadas de processamento de vídeo, enquanto agentes executores as implementam por meio de servidores de ferramentas modulares baseados em MCP (para análise, geração, edição, rastreamento etc.). Através de uma memória hierárquica multinível (conhecimento global, contexto de tarefa e preferências específicas do usuário), o UniVA sustenta raciocínio de longo prazo, continuidade contextual e comunicação interagente, permitindo criação de vídeo interativa e autorreflexiva com total rastreabilidade. Este projeto permite fluxos de trabalho de vídeo iterativos e sob quaisquer condições (por exemplo, geração condicionada por texto/imagem/vídeo → edição em múltiplas rodadas → segmentação de objetos → síntese composicional) que anteriormente eram difíceis de alcançar com modelos de propósito único ou modelos monolíticos de vídeo e linguagem. Também apresentamos o UniVA-Bench, um conjunto de benchmarks de tarefas de vídeo multietapa abrangendo compreensão, edição, segmentação e geração, para avaliar rigorosamente tais sistemas de vídeo agentivos. Tanto o UniVA quanto o UniVA-Bench são totalmente de código aberto, visando catalisar pesquisas sobre inteligência de vídeo interativa, agentiva e de propósito geral para a próxima geração de sistemas de IA multimodal. (https://univa.online/)

English

While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)

UniVA: Agente de Vídeo Universal para um Generalista de Vídeo de Próxima Geração de Código Aberto

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Resumo

Support