Skalierung der instruktionsbasierten Videobearbeitung mit einem hochwertigen synthetischen Datensatz
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
October 17, 2025
papers.authors: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI
papers.abstract
Instruktionsbasiertes Video-Editing verspricht, die Inhaltserstellung zu demokratisieren, doch sein Fortschritt wird erheblich durch den Mangel an groß angelegten, hochwertigen Trainingsdaten behindert. Wir stellen Ditto vor, ein ganzheitliches Framework, das entwickelt wurde, um diese grundlegende Herausforderung zu bewältigen. Im Kern von Ditto befindet sich eine neuartige Daten-Generierungspipeline, die die kreative Vielfalt eines führenden Bildeditors mit einem In-Context-Video-Generator kombiniert und so die begrenzten Möglichkeiten bestehender Modelle überwindet. Um diesen Prozess praktikabel zu machen, löst unser Framework den problematischen Kompromiss zwischen Kosten und Qualität durch den Einsatz einer effizienten, destillierten Modellarchitektur, die durch einen temporalen Enhancer ergänzt wird. Dies reduziert gleichzeitig den Rechenaufwand und verbessert die zeitliche Kohärenz. Schließlich wird die gesamte Pipeline von einem intelligenten Agenten gesteuert, der vielfältige Anweisungen erstellt und die Ausgabe rigoros filtert, um eine Qualitätskontrolle im großen Maßstab zu gewährleisten. Mit diesem Framework haben wir über 12.000 GPU-Tage investiert, um Ditto-1M zu erstellen, einen neuen Datensatz mit einer Million hochwertiger Video-Editing-Beispiele. Wir haben unser Modell, Editto, auf Ditto-1M mit einer Curriculum-Learning-Strategie trainiert. Die Ergebnisse zeigen eine überlegene Fähigkeit zur Befolgung von Anweisungen und setzen einen neuen Maßstab im instruktionsbasierten Video-Editing.
English
Instruction-based video editing promises to democratize content creation, yet
its progress is severely hampered by the scarcity of large-scale, high-quality
training data. We introduce Ditto, a holistic framework designed to tackle this
fundamental challenge. At its heart, Ditto features a novel data generation
pipeline that fuses the creative diversity of a leading image editor with an
in-context video generator, overcoming the limited scope of existing models. To
make this process viable, our framework resolves the prohibitive cost-quality
trade-off by employing an efficient, distilled model architecture augmented by
a temporal enhancer, which simultaneously reduces computational overhead and
improves temporal coherence. Finally, to achieve full scalability, this entire
pipeline is driven by an intelligent agent that crafts diverse instructions and
rigorously filters the output, ensuring quality control at scale. Using this
framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of
one million high-fidelity video editing examples. We trained our model, Editto,
on Ditto-1M with a curriculum learning strategy. The results demonstrate
superior instruction-following ability and establish a new state-of-the-art in
instruction-based video editing.