Skalierung der instruktionsbasierten Videobearbeitung mit einem hochwertigen synthetischen Datensatz

papers.abstract

Instruktionsbasiertes Video-Editing verspricht, die Inhaltserstellung zu demokratisieren, doch sein Fortschritt wird erheblich durch den Mangel an groß angelegten, hochwertigen Trainingsdaten behindert. Wir stellen Ditto vor, ein ganzheitliches Framework, das entwickelt wurde, um diese grundlegende Herausforderung zu bewältigen. Im Kern von Ditto befindet sich eine neuartige Daten-Generierungspipeline, die die kreative Vielfalt eines führenden Bildeditors mit einem In-Context-Video-Generator kombiniert und so die begrenzten Möglichkeiten bestehender Modelle überwindet. Um diesen Prozess praktikabel zu machen, löst unser Framework den problematischen Kompromiss zwischen Kosten und Qualität durch den Einsatz einer effizienten, destillierten Modellarchitektur, die durch einen temporalen Enhancer ergänzt wird. Dies reduziert gleichzeitig den Rechenaufwand und verbessert die zeitliche Kohärenz. Schließlich wird die gesamte Pipeline von einem intelligenten Agenten gesteuert, der vielfältige Anweisungen erstellt und die Ausgabe rigoros filtert, um eine Qualitätskontrolle im großen Maßstab zu gewährleisten. Mit diesem Framework haben wir über 12.000 GPU-Tage investiert, um Ditto-1M zu erstellen, einen neuen Datensatz mit einer Million hochwertiger Video-Editing-Beispiele. Wir haben unser Modell, Editto, auf Ditto-1M mit einer Curriculum-Learning-Strategie trainiert. Die Ergebnisse zeigen eine überlegene Fähigkeit zur Befolgung von Anweisungen und setzen einen neuen Maßstab im instruktionsbasierten Video-Editing.

English

Instruction-based video editing promises to democratize content creation, yet its progress is severely hampered by the scarcity of large-scale, high-quality training data. We introduce Ditto, a holistic framework designed to tackle this fundamental challenge. At its heart, Ditto features a novel data generation pipeline that fuses the creative diversity of a leading image editor with an in-context video generator, overcoming the limited scope of existing models. To make this process viable, our framework resolves the prohibitive cost-quality trade-off by employing an efficient, distilled model architecture augmented by a temporal enhancer, which simultaneously reduces computational overhead and improves temporal coherence. Finally, to achieve full scalability, this entire pipeline is driven by an intelligent agent that crafts diverse instructions and rigorously filters the output, ensuring quality control at scale. Using this framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of one million high-fidelity video editing examples. We trained our model, Editto, on Ditto-1M with a curriculum learning strategy. The results demonstrate superior instruction-following ability and establish a new state-of-the-art in instruction-based video editing.

Skalierung der instruktionsbasierten Videobearbeitung mit einem hochwertigen synthetischen Datensatz

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

papers.abstract

Support