Aurora : Montage vidéo unifié avec un agent outillé

Résumé

Les modèles récents de montage vidéo convergent vers une conception de conditionnement unifiée : un transformateur de diffusion unique consomme conjointement du texte, une vidéo source et des images de référence, et un seul ensemble de poids couvre le remplacement, la suppression, le transfert de style et l'insertion pilotée par référence. Cette conception est flexible, mais elle suppose que l'utilisateur fournisse déjà du texte prêt pour le modèle, des images de référence et un ancrage spatial pour les modifications locales, ce que les requêtes réelles omettent souvent. Nous présentons Aurora, un cadre de montage vidéo agentique qui associe un agent de modèle vision-langage (VLM) augmenté par outils à un transformateur de diffusion vidéo unifié. L'agent VLM transforme une requête utilisateur brute en un plan de montage structuré aligné sur les canaux de conditionnement du transformateur, résolvant ainsi la sous-spécification textuelle et visuelle avant la génération. Nous entraînons l'agent VLM avec des données supervisées pour la planification complète du montage et la sélection des images de référence, ainsi que des paires de préférence pour une utilisation robuste des outils et un affinement des instructions. Nous introduisons AgentEdit-Bench pour évaluer le montage vidéo amélioré par agent en cas de sous-spécification textuelle et visuelle. Les expériences sur AgentEdit-Bench et deux bancs d'essai de montage vidéo existants montrent qu'Aurora améliore les bases de référence utilisant uniquement des instructions et que l'agent VLM se transfère à des modèles de montage vidéo figés compatibles. Page du projet : https://yeates.github.io/Aurora-Page

English

Recent video editing models have converged on a unified conditioning design: a single diffusion transformer jointly consumes text, source video, and reference images, and one set of weights covers replacement, removal, style transfer, and reference-driven insertion. The design is flexible, but it assumes that the user already provides model-ready text, reference images, and spatial grounding for local edits, which real requests often omit. We present Aurora, an agentic video editing framework that pairs a tool-augmented vision-language model (VLM) agent with a unified video diffusion transformer. The VLM agent maps a raw user request to a structured edit plan aligned with the transformer's conditioning channels, thereby resolving textual and visual underspecification before generation. We train the VLM agent with supervised data for complete edit planning and reference-image selection, together with preference pairs for robust tool use and instruction refinement. We introduce AgentEdit-Bench to evaluate agent-enhanced video editing under textual and visual underspecification. Experiments on AgentEdit-Bench and two existing video editing benchmarks show that Aurora improves over instruction-only baselines and that the VLM agent transfers to compatible frozen video editing models. Project page: https://yeates.github.io/Aurora-Page