ChatPaper.aiChatPaper

UniVA: Универсальный видеоагент как открытая платформа для видеогенералиста следующего поколения

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

November 11, 2025
Авторы: Zhengyang Liang, Daoan Zhang, Huichi Zhou, Rui Huang, Bobo Li, Yuechen Zhang, Shengqiong Wu, Xiaohan Wang, Jiebo Luo, Lizi Liao, Hao Fei
cs.AI

Аннотация

Хотя специализированные модели ИИ превосходно справляются с изолированными задачами работы с видео, такими как генерация или анализ, реальные приложения требуют сложных, итеративных процессов, сочетающих эти возможности. Чтобы заполнить этот пробел, мы представляем UniVA — открытую, универсальную мультиагентную платформу для видео-генералистов следующего поколения, которая объединяет анализ, сегментацию, редактирование и генерацию видео в целостные рабочие процессы. UniVA использует двухагентную архитектуру «Планирование-Действие», которая обеспечивает высокоавтоматизированный и проактивный процесс: агент-планировщик интерпретирует намерения пользователя и разбивает их на структурированные этапы обработки видео, в то время как агенты-исполнители выполняют их через модульные серверы инструментов на основе MCP (для анализа, генерации, редактирования, отслеживания и т.д.). Благодаря иерархической многоуровневой памяти (глобальные знания, контекст задачи и пользовательские предпочтения) UniVA поддерживает долгосрочное планирование, контекстуальную преемственность и межагентное взаимодействие, обеспечивая интерактивное и саморефлексивное создание видео с полной отслеживаемостью. Такой подход позволяет реализовать итеративные и условно-независимые рабочие процессы (например, генерация по тексту/изображению/видео → многораундовое редактирование → сегментация объектов → композиционный синтез), которые ранее было сложно достичь с помощью узкоспециализированных моделей или монолитных видео-языковых моделей. Мы также представляем UniVA-Bench — набор эталонных тестов для многошаговых задач, охватывающих анализ, редактирование, сегментацию и генерацию видео, для строгой оценки таких агентных видео-систем. И UniVA, и UniVA-Bench полностью открыты и направлены на стимулирование исследований в области интерактивного, агентного и универсального видео-интеллекта для следующего поколения мультимодальных систем ИИ. (https://univa.online/)
English
While specialized AI models excel at isolated video tasks like generation or understanding, real-world applications demand complex, iterative workflows that combine these capabilities. To bridge this gap, we introduce UniVA, an open-source, omni-capable multi-agent framework for next-generation video generalists that unifies video understanding, segmentation, editing, and generation into cohesive workflows. UniVA employs a Plan-and-Act dual-agent architecture that drives a highly automated and proactive workflow: a planner agent interprets user intentions and decomposes them into structured video-processing steps, while executor agents execute these through modular, MCP-based tool servers (for analysis, generation, editing, tracking, etc.). Through a hierarchical multi-level memory (global knowledge, task context, and user-specific preferences), UniVA sustains long-horizon reasoning, contextual continuity, and inter-agent communication, enabling interactive and self-reflective video creation with full traceability. This design enables iterative and any-conditioned video workflows (e.g., text/image/video-conditioned generation rightarrow multi-round editing rightarrow object segmentation rightarrow compositional synthesis) that were previously cumbersome to achieve with single-purpose models or monolithic video-language models. We also introduce UniVA-Bench, a benchmark suite of multi-step video tasks spanning understanding, editing, segmentation, and generation, to rigorously evaluate such agentic video systems. Both UniVA and UniVA-Bench are fully open-sourced, aiming to catalyze research on interactive, agentic, and general-purpose video intelligence for the next generation of multimodal AI systems. (https://univa.online/)
PDF372December 1, 2025