고품질 합성 데이터셋을 활용한 지시 기반 비디오 편집의 확장
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
October 17, 2025
저자: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI
초록
명령 기반 비디오 편집은 콘텐츠 제작의 민주화를 약속하지만, 대규모 고품질 학습 데이터의 부족으로 인해 그 발전이 심각하게 저해되고 있습니다. 우리는 이러한 근본적인 문제를 해결하기 위해 Ditto라는 통합 프레임워크를 소개합니다. Ditto의 핵심은 선도적인 이미지 편집기의 창의적 다양성과 컨텍스트 내 비디오 생성기를 융합한 새로운 데이터 생성 파이프라인으로, 기존 모델의 한계를 극복합니다. 이 과정을 실현 가능하게 하기 위해, 우리의 프레임워크는 효율적이고 증류된 모델 아키텍처와 시간적 일관성을 개선하는 시간적 강화기를 활용하여 비용과 품질 간의 과도한 절충을 해결합니다. 마지막으로, 전체 파이프라인은 다양한 명령을 생성하고 출력을 엄격하게 필터링하는 지능형 에이전트에 의해 구동되어 대규모로 품질 관리를 보장합니다. 이 프레임워크를 사용하여 우리는 12,000 GPU-일 이상을 투자하여 100만 개의 고품질 비디오 편집 예제로 구성된 새로운 데이터셋인 Ditto-1M을 구축했습니다. 우리는 Ditto-1M을 기반으로 커리큘럼 학습 전략을 통해 Editto 모델을 학습시켰습니다. 그 결과, 우수한 명령 수행 능력을 입증하고 명령 기반 비디오 편집 분야에서 새로운 최첨단 기술을 확립했습니다.
English
Instruction-based video editing promises to democratize content creation, yet
its progress is severely hampered by the scarcity of large-scale, high-quality
training data. We introduce Ditto, a holistic framework designed to tackle this
fundamental challenge. At its heart, Ditto features a novel data generation
pipeline that fuses the creative diversity of a leading image editor with an
in-context video generator, overcoming the limited scope of existing models. To
make this process viable, our framework resolves the prohibitive cost-quality
trade-off by employing an efficient, distilled model architecture augmented by
a temporal enhancer, which simultaneously reduces computational overhead and
improves temporal coherence. Finally, to achieve full scalability, this entire
pipeline is driven by an intelligent agent that crafts diverse instructions and
rigorously filters the output, ensuring quality control at scale. Using this
framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of
one million high-fidelity video editing examples. We trained our model, Editto,
on Ditto-1M with a curriculum learning strategy. The results demonstrate
superior instruction-following ability and establish a new state-of-the-art in
instruction-based video editing.