Aurora: Einheitliche Videobearbeitung mittels eines werkzeugnutzenden Agenten

Zusammenfassung

Aktuelle Videobearbeitungsmodelle haben sich auf ein einheitliches Konditionierungsdesign festgelegt: Ein einzelner Diffusionstransformer verarbeitet gemeinsam Text, Quellvideo und Referenzbilder, und ein einziger Gewichtssatz deckt Ersetzung, Entfernung, Stilübertragung und referenzgesteuerte Einfügung ab. Das Design ist flexibel, setzt jedoch voraus, dass der Benutzer bereits modellfertigen Text, Referenzbilder und räumliche Verankerung für lokale Bearbeitungen bereitstellt, was reale Anfragen oft auslassen. Wir stellen Aurora vor, ein agentisches Videobearbeitungsframework, das einen werkzeugverstärkten Vision-Language-Modell-(VLM-)Agenten mit einem vereinheitlichten Video-Diffusionstransformer kombiniert. Der VLM-Agent ordnet eine rohe Benutzeranfrage einem strukturierten Bearbeitungsplan zu, der auf die Konditionierungskanäle des Transformers abgestimmt ist, und löst so die textuelle und visuelle Unterspezifikation vor der Generierung. Wir trainieren den VLM-Agenten mit überwachten Daten für vollständige Bearbeitungsplanung und Referenzbildauswahl sowie mit Präferenzpaaren für robuste Werkzeugnutzung und Anweisungsverfeinerung. Wir führen AgentEdit-Bench ein, um agentenunterstützte Videobearbeitung unter textueller und visueller Unterspezifikation zu bewerten. Experimente auf AgentEdit-Bench und zwei bestehenden Videobearbeitungs-Benchmarks zeigen, dass Aurora sich gegenüber rein anweisungsbasierten Baselines verbessert und dass der VLM-Agent auf kompatible eingefrorene Videobearbeitungsmodelle übertragbar ist. Projektseite: https://yeates.github.io/Aurora-Page

English

Recent video editing models have converged on a unified conditioning design: a single diffusion transformer jointly consumes text, source video, and reference images, and one set of weights covers replacement, removal, style transfer, and reference-driven insertion. The design is flexible, but it assumes that the user already provides model-ready text, reference images, and spatial grounding for local edits, which real requests often omit. We present Aurora, an agentic video editing framework that pairs a tool-augmented vision-language model (VLM) agent with a unified video diffusion transformer. The VLM agent maps a raw user request to a structured edit plan aligned with the transformer's conditioning channels, thereby resolving textual and visual underspecification before generation. We train the VLM agent with supervised data for complete edit planning and reference-image selection, together with preference pairs for robust tool use and instruction refinement. We introduce AgentEdit-Bench to evaluate agent-enhanced video editing under textual and visual underspecification. Experiments on AgentEdit-Bench and two existing video editing benchmarks show that Aurora improves over instruction-only baselines and that the VLM agent transfers to compatible frozen video editing models. Project page: https://yeates.github.io/Aurora-Page