Aurora: Edición de video unificada con un agente de uso de herramientas

Resumen

Los modelos recientes de edición de vídeo han convergido en un diseño de condicionamiento unificado: un único transformador de difusión consume conjuntamente texto, vídeo fuente e imágenes de referencia, y un conjunto de pesos cubre reemplazo, eliminación, transferencia de estilo e inserción guiada por referencias. El diseño es flexible, pero asume que el usuario ya proporciona texto listo para el modelo, imágenes de referencia y un anclaje espacial para ediciones locales, lo que las solicitudes reales a menudo omiten. Presentamos Aurora, un marco de edición de vídeo con agente que empareja un agente de modelo de lenguaje y visión (VLM) aumentado con herramientas con un transformador de difusión de vídeo unificado. El agente VLM mapea una solicitud de usuario en bruto a un plan de edición estructurado alineado con los canales de condicionamiento del transformador, resolviendo así la subespecificación textual y visual antes de la generación. Entrenamos el agente VLM con datos supervisados para la planificación completa de ediciones y la selección de imágenes de referencia, junto con pares de preferencia para un uso robusto de herramientas y refinamiento de instrucciones. Introducimos AgentEdit-Bench para evaluar la edición de vídeo aumentada por agente bajo subespecificación textual y visual. Los experimentos en AgentEdit-Bench y dos puntos de referencia de edición de vídeo existentes muestran que Aurora mejora las líneas base basadas solo en instrucciones y que el agente VLM se transfiere a modelos de edición de vídeo congelados compatibles. Página del proyecto: https://yeates.github.io/Aurora-Page

English

Recent video editing models have converged on a unified conditioning design: a single diffusion transformer jointly consumes text, source video, and reference images, and one set of weights covers replacement, removal, style transfer, and reference-driven insertion. The design is flexible, but it assumes that the user already provides model-ready text, reference images, and spatial grounding for local edits, which real requests often omit. We present Aurora, an agentic video editing framework that pairs a tool-augmented vision-language model (VLM) agent with a unified video diffusion transformer. The VLM agent maps a raw user request to a structured edit plan aligned with the transformer's conditioning channels, thereby resolving textual and visual underspecification before generation. We train the VLM agent with supervised data for complete edit planning and reference-image selection, together with preference pairs for robust tool use and instruction refinement. We introduce AgentEdit-Bench to evaluate agent-enhanced video editing under textual and visual underspecification. Experiments on AgentEdit-Bench and two existing video editing benchmarks show that Aurora improves over instruction-only baselines and that the VLM agent transfers to compatible frozen video editing models. Project page: https://yeates.github.io/Aurora-Page