Schaalbaar videobewerken op basis van instructies met een hoogwaardige synthetische dataset
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
October 17, 2025
Auteurs: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI
Samenvatting
Instructiegebaseerde videobewerking belooft contentcreatie te democratiseren, maar
de vooruitgang wordt ernstig belemmerd door het gebrek aan grootschalige, hoogwaardige
trainingsdata. We introduceren Ditto, een holistisch framework ontworpen om deze
fundamentele uitdaging aan te pakken. De kern van Ditto bestaat uit een innovatief
datageneratiepipeline dat de creatieve diversiteit van een toonaangevende beeldbewerker
combineert met een in-context videogenerator, waardoor de beperkte reikwijdte van
bestaande modellen wordt overwonnen. Om dit proces haalbaar te maken, lost ons framework
het problematische kosten-kwaliteit-compromis op door een efficiënt, gedistilleerd
modelarchitectuur te gebruiken, versterkt door een temporele versterker, wat tegelijkertijd
de rekenkosten vermindert en de temporele samenhang verbetert. Ten slotte wordt, om volledige
schaalbaarheid te bereiken, deze hele pipeline aangedreven door een intelligente agent die
diverse instructies ontwerpt en de output rigoureus filtert, waardoor kwaliteitscontrole op
schaal wordt gegarandeerd. Met dit framework hebben we meer dan 12.000 GPU-dagen geïnvesteerd
om Ditto-1M te bouwen, een nieuwe dataset van één miljoen hoogwaardige voorbeelden van
videobewerking. We hebben ons model, Editto, getraind op Ditto-1M met een curriculumlerenstrategie.
De resultaten tonen een superieure vermogen om instructies te volgen en vestigen een nieuwe
state-of-the-art in instructiegebaseerde videobewerking.
English
Instruction-based video editing promises to democratize content creation, yet
its progress is severely hampered by the scarcity of large-scale, high-quality
training data. We introduce Ditto, a holistic framework designed to tackle this
fundamental challenge. At its heart, Ditto features a novel data generation
pipeline that fuses the creative diversity of a leading image editor with an
in-context video generator, overcoming the limited scope of existing models. To
make this process viable, our framework resolves the prohibitive cost-quality
trade-off by employing an efficient, distilled model architecture augmented by
a temporal enhancer, which simultaneously reduces computational overhead and
improves temporal coherence. Finally, to achieve full scalability, this entire
pipeline is driven by an intelligent agent that crafts diverse instructions and
rigorously filters the output, ensuring quality control at scale. Using this
framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of
one million high-fidelity video editing examples. We trained our model, Editto,
on Ditto-1M with a curriculum learning strategy. The results demonstrate
superior instruction-following ability and establish a new state-of-the-art in
instruction-based video editing.