ChatPaper.aiChatPaper

UniVA: Universeller Video-Agent für quelloffene Video-Generallösungen der nächsten Generation

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

November 11, 2025
papers.authors: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
cs.AI

papers.abstract

Während spezialisierte KI-Modelle bei isolierten Videoaufgaben wie Generierung oder Verständnis hervorragende Leistungen erbringen, erfordern reale Anwendungen komplexe, iterative Workflows, die diese Fähigkeiten kombinieren. Um diese Lücke zu schließen, stellen wir UniVA vor – ein quelloffenes, universell fähiges Multi-Agenten-Framework für die nächste Generation von Video-Generalisten, das Videoverständnis, Segmentierung, Bearbeitung und Generierung in kohärenten Workflows vereint. UniVA nutzt eine Plan-and-Act-Dual-Agenten-Architektur, die einen hochautomatisierten und proaktiven Workflow antreibt: Ein Planer-Agent interpretiert Benutzerabsichten und zerlegt sie in strukturierte Videoverarbeitungsschritte, während Ausführer-Agenten diese über modulare, MCP-basierte Tool-Server (für Analyse, Generierung, Bearbeitung, Tracking etc.) ausführen. Durch einen hierarchischen Mehr-Ebenen-Speicher (globales Wissen, Aufgabenkontext und benutzerspezifische Präferenzen) erhält UniVA langfristige Reasoning-Fähigkeiten, kontextuelle Kontinuität und Agenten-Kommunikation aufrecht und ermöglicht so interaktive und selbstreflektierende Videocreation mit vollständiger Nachverfolgbarkeit. Dieses Design ermöglicht iterative und beliebig konditionierte Video-Workflows (z.B. text-/bild-/videokonditionierte Generierung → Mehrfach-Bearbeitung → Objektsegmentierung → kompositionelle Synthese), die zuvor mit Einzweckmodellen oder monolithischen Video-Sprach-Modellen nur umständlich zu realisieren waren. Wir stellen zudem UniVA-Bench vor, eine Benchmark-Suite für mehrstufige Videoaufgaben aus den Bereichen Verständnis, Bearbeitung, Segmentierung und Generierung, um solche agentenbasierten Videosysteme rigoros zu evaluieren. Sowohl UniVA als auch UniVA-Bench sind vollständig quelloffen und sollen die Forschung zu interaktiver, agentenbasierter und allgemeiner Video-Intelligenz für die nächste Generation multimodaler KI-Systeme vorantreiben. (https://univa.online/)
English
While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)
PDF372December 1, 2025