Aurora: Edição de Vídeo Unificada com um Agente Usuário de Ferramentas

Resumo

Os modelos recentes de edição de vídeo convergiram para um design de condicionamento unificado: um único transformador de difusão que consome conjuntamente texto, vídeo de origem e imagens de referência, e um conjunto de pesos abrange substituição, remoção, transferência de estilo e inserção orientada por referência. O design é flexível, mas pressupõe que o usuário já forneça texto, imagens de referência e fundamentação espacial prontos para o modelo, elementos que as solicitações reais frequentemente omitem. Apresentamos o Aurora, uma estrutura de edição de vídeo agentiva que combina um agente de modelo de linguagem-visão (VLM) aprimorado com ferramentas e um transformador de difusão de vídeo unificado. O agente VLM mapeia uma solicitação bruta do usuário para um plano de edição estruturado alinhado com os canais de condicionamento do transformador, resolvendo assim a subespecificação textual e visual antes da geração. Treinamos o agente VLM com dados supervisionados para planejamento completo de edição e seleção de imagens de referência, juntamente com pares de preferência para uso robusto de ferramentas e refinamento de instruções. Introduzimos o AgentEdit-Bench para avaliar a edição de vídeo aprimorada por agentes sob subespecificação textual e visual. Experimentos no AgentEdit-Bench e em dois benchmarks de edição de vídeo existentes mostram que o Aurora melhora as linhas de base baseadas apenas em instruções e que o agente VLM transfere para modelos de edição de vídeo congelados compatíveis. Página do projeto: https://yeates.github.io/Aurora-Page

English

Recent video editing models have converged on a unified conditioning design: a single diffusion transformer jointly consumes text, source video, and reference images, and one set of weights covers replacement, removal, style transfer, and reference-driven insertion. The design is flexible, but it assumes that the user already provides model-ready text, reference images, and spatial grounding for local edits, which real requests often omit. We present Aurora, an agentic video editing framework that pairs a tool-augmented vision-language model (VLM) agent with a unified video diffusion transformer. The VLM agent maps a raw user request to a structured edit plan aligned with the transformer's conditioning channels, thereby resolving textual and visual underspecification before generation. We train the VLM agent with supervised data for complete edit planning and reference-image selection, together with preference pairs for robust tool use and instruction refinement. We introduce AgentEdit-Bench to evaluate agent-enhanced video editing under textual and visual underspecification. Experiments on AgentEdit-Bench and two existing video editing benchmarks show that Aurora improves over instruction-only baselines and that the VLM agent transfers to compatible frozen video editing models. Project page: https://yeates.github.io/Aurora-Page