Масштабирование редактирования видео на основе инструкций с использованием высококачественного синтетического набора данных
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
October 17, 2025
Авторы: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI
Аннотация
Редактирование видео на основе инструкций обещает демократизировать создание контента, однако его прогресс серьезно ограничен нехваткой крупномасштабных, высококачественных данных для обучения. Мы представляем Ditto, целостную структуру, разработанную для решения этой фундаментальной проблемы. В основе Ditto лежит инновационный конвейер генерации данных, который объединяет творческое разнообразие ведущего редактора изображений с генератором видео в контексте, преодолевая ограниченные возможности существующих моделей. Чтобы сделать этот процесс осуществимым, наша структура устраняет компромисс между стоимостью и качеством, используя эффективную, дистиллированную архитектуру модели, дополненную временным усилителем, который одновременно снижает вычислительные затраты и улучшает временную согласованность. Наконец, для достижения полной масштабируемости весь этот конвейер управляется интеллектуальным агентом, который создает разнообразные инструкции и строго фильтрует выходные данные, обеспечивая контроль качества в масштабе. Используя эту структуру, мы вложили более 12 000 GPU-дней для создания Ditto-1M — нового набора данных, содержащего миллион примеров редактирования видео с высокой точностью. Мы обучили нашу модель, Editto, на Ditto-1M с использованием стратегии обучения по учебному плану. Результаты демонстрируют превосходную способность следовать инструкциям и устанавливают новый эталон в редактировании видео на основе инструкций.
English
Instruction-based video editing promises to democratize content creation, yet
its progress is severely hampered by the scarcity of large-scale, high-quality
training data. We introduce Ditto, a holistic framework designed to tackle this
fundamental challenge. At its heart, Ditto features a novel data generation
pipeline that fuses the creative diversity of a leading image editor with an
in-context video generator, overcoming the limited scope of existing models. To
make this process viable, our framework resolves the prohibitive cost-quality
trade-off by employing an efficient, distilled model architecture augmented by
a temporal enhancer, which simultaneously reduces computational overhead and
improves temporal coherence. Finally, to achieve full scalability, this entire
pipeline is driven by an intelligent agent that crafts diverse instructions and
rigorously filters the output, ensuring quality control at scale. Using this
framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of
one million high-fidelity video editing examples. We trained our model, Editto,
on Ditto-1M with a curriculum learning strategy. The results demonstrate
superior instruction-following ability and establish a new state-of-the-art in
instruction-based video editing.