Mise à l'échelle de l'édition vidéo basée sur des instructions avec un ensemble de données synthétiques de haute qualité
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
October 17, 2025
papers.authors: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI
papers.abstract
L'édition vidéo basée sur des instructions promet de démocratiser la création de contenu, mais ses progrès sont fortement entravés par la rareté de données d'entraînement à grande échelle et de haute qualité. Nous présentons Ditto, un cadre holistique conçu pour relever ce défi fondamental. Au cœur de Ditto se trouve un pipeline innovant de génération de données qui combine la diversité créative d'un éditeur d'images de pointe avec un générateur de vidéos en contexte, surmontant ainsi les limites des modèles existants. Pour rendre ce processus viable, notre cadre résout le compromis coût-qualité prohibitif en employant une architecture de modèle efficace et distillée, renforcée par un amplificateur temporel, qui réduit simultanément la surcharge computationnelle et améliore la cohérence temporelle. Enfin, pour atteindre une scalabilité totale, l'ensemble de ce pipeline est piloté par un agent intelligent qui conçoit des instructions variées et filtre rigoureusement les résultats, garantissant un contrôle de qualité à grande échelle. En utilisant ce cadre, nous avons investi plus de 12 000 jours-GPU pour construire Ditto-1M, un nouveau jeu de données d'un million d'exemples d'édition vidéo haute fidélité. Nous avons entraîné notre modèle, Editto, sur Ditto-1M avec une stratégie d'apprentissage curriculaire. Les résultats démontrent une capacité supérieure à suivre les instructions et établissent un nouvel état de l'art dans l'édition vidéo basée sur des instructions.
English
Instruction-based video editing promises to democratize content creation, yet
its progress is severely hampered by the scarcity of large-scale, high-quality
training data. We introduce Ditto, a holistic framework designed to tackle this
fundamental challenge. At its heart, Ditto features a novel data generation
pipeline that fuses the creative diversity of a leading image editor with an
in-context video generator, overcoming the limited scope of existing models. To
make this process viable, our framework resolves the prohibitive cost-quality
trade-off by employing an efficient, distilled model architecture augmented by
a temporal enhancer, which simultaneously reduces computational overhead and
improves temporal coherence. Finally, to achieve full scalability, this entire
pipeline is driven by an intelligent agent that crafts diverse instructions and
rigorously filters the output, ensuring quality control at scale. Using this
framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of
one million high-fidelity video editing examples. We trained our model, Editto,
on Ditto-1M with a curriculum learning strategy. The results demonstrate
superior instruction-following ability and establish a new state-of-the-art in
instruction-based video editing.