ChatPaper.aiChatPaper

UniVA: Agente Video Universale verso un Generalista Video Open-Source di Nuova Generazione

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

November 11, 2025
Autori: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
cs.AI

Abstract

Mentre i modelli di IA specializzati eccellono in compiti video isolati come la generazione o la comprensione, le applicazioni nel mondo reale richiedono flussi di lavoro complessi e iterativi che combinino queste capacità. Per colmare questa lacuna, presentiamo UniVA, un framework multi-agente open-source e onnicapace per generalisti video di prossima generazione che unisce comprensione, segmentazione, editing e generazione video in flussi di lavoro coerenti. UniVA impiega un'architettura duale Plan-and-Act che guida un flusso di lavoro altamente automatizzato e proattivo: un agente pianificatore interpreta le intenzioni dell'utente e le scompone in passaggi strutturati di elaborazione video, mentre agenti esecutori li realizzano attraverso server di strumenti modulari basati su MCP (per analisi, generazione, editing, tracking, ecc.). Attraverso una memoria gerarchica multi-livello (conoscenza globale, contesto del compito e preferenze specifiche dell'utente), UniVA sostiene un ragionamento a lungo termine, la continuità contestuale e la comunicazione inter-agente, abilitando una creazione video interattiva e autoriflessiva con piena tracciabilità. Questo design consente flussi di lavoro video iterativi e condizionati da qualsiasi input (ad es., generazione condizionata da testo/immagine/video → editing multi-round → segmentazione di oggetti → sintesi compositiva) che in precedenza erano difficili da realizzare con modelli a scopo singolo o modelli video-linguistici monolitici. Introduciamo anche UniVA-Bench, una suite di benchmark per compiti video multi-step che abbracciano comprensione, editing, segmentazione e generazione, per valutare rigorosamente tali sistemi video agentivi. Sia UniVA che UniVA-Bench sono completamente open-source, con l'obiettivo di catalizzare la ricerca sull'intelligenza video interattiva, agentiva e a scopo generale per la prossima generazione di sistemi di IA multimodale. (https://univa.online/)
English
While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)
PDF372December 1, 2025