高品質な合成データセットを用いた指示に基づく動画編集のスケーリング
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
October 17, 2025
著者: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI
要旨
指示に基づく動画編集は、コンテンツ制作の民主化を約束するものの、その進展は大規模で高品質なトレーニングデータの不足によって深刻に阻害されている。本論文では、この根本的な課題に取り組むために設計された包括的フレームワーク「Ditto」を紹介する。Dittoの中核には、既存モデルの限定的な範囲を克服するため、主要な画像エディタの創造的多様性とコンテキスト内動画生成器を融合させた新しいデータ生成パイプラインが備わっている。このプロセスを実現可能にするため、我々のフレームワークは、効率的で蒸留されたモデルアーキテクチャと時間的エンハンサーを組み合わせることで、計算コストと品質のトレードオフを解決し、計算オーバーヘッドを削減すると同時に時間的一貫性を向上させる。最後に、完全なスケーラビリティを実現するため、このパイプライン全体は、多様な指示を作成し、出力を厳密にフィルタリングするインテリジェントエージェントによって駆動され、大規模な品質管理を保証する。このフレームワークを用いて、我々は12,000 GPU日以上を投資し、100万の高忠実度動画編集例を含む新しいデータセット「Ditto-1M」を構築した。我々のモデル「Editto」をDitto-1Mでカリキュラム学習戦略を用いてトレーニングした結果、指示追従能力の優位性が示され、指示に基づく動画編集において新たな最先端を確立した。
English
Instruction-based video editing promises to democratize content creation, yet
its progress is severely hampered by the scarcity of large-scale, high-quality
training data. We introduce Ditto, a holistic framework designed to tackle this
fundamental challenge. At its heart, Ditto features a novel data generation
pipeline that fuses the creative diversity of a leading image editor with an
in-context video generator, overcoming the limited scope of existing models. To
make this process viable, our framework resolves the prohibitive cost-quality
trade-off by employing an efficient, distilled model architecture augmented by
a temporal enhancer, which simultaneously reduces computational overhead and
improves temporal coherence. Finally, to achieve full scalability, this entire
pipeline is driven by an intelligent agent that crafts diverse instructions and
rigorously filters the output, ensuring quality control at scale. Using this
framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of
one million high-fidelity video editing examples. We trained our model, Editto,
on Ditto-1M with a curriculum learning strategy. The results demonstrate
superior instruction-following ability and establish a new state-of-the-art in
instruction-based video editing.