Scalabilità dell'Editing Video Basato su Istruzioni con un Dataset Sintetico di Alta Qualità
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
October 17, 2025
Autori: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI
Abstract
L'editing video basato su istruzioni promette di democratizzare la creazione di contenuti, ma il suo progresso è fortemente ostacolato dalla scarsità di dati di addestramento su larga scala e di alta qualità. Presentiamo Ditto, un framework olistico progettato per affrontare questa sfida fondamentale. Al suo cuore, Ditto presenta una nuova pipeline di generazione dati che combina la diversità creativa di un editor di immagini leader con un generatore di video in contesto, superando i limiti dei modelli esistenti. Per rendere questo processo fattibile, il nostro framework risolve il compromesso proibitivo tra costo e qualità impiegando un'architettura di modello efficiente e distillata, potenziata da un miglioratore temporale, che riduce simultaneamente il sovraccarico computazionale e migliora la coerenza temporale. Infine, per raggiungere una piena scalabilità, l'intera pipeline è guidata da un agente intelligente che crea istruzioni diversificate e filtra rigorosamente l'output, garantendo il controllo di qualità su larga scala. Utilizzando questo framework, abbiamo investito oltre 12.000 giorni-GPU per costruire Ditto-1M, un nuovo dataset di un milione di esempi di editing video ad alta fedeltà. Abbiamo addestrato il nostro modello, Editto, su Ditto-1M con una strategia di apprendimento curriculare. I risultati dimostrano una superiore capacità di seguire le istruzioni e stabiliscono un nuovo stato dell'arte nell'editing video basato su istruzioni.
English
Instruction-based video editing promises to democratize content creation, yet
its progress is severely hampered by the scarcity of large-scale, high-quality
training data. We introduce Ditto, a holistic framework designed to tackle this
fundamental challenge. At its heart, Ditto features a novel data generation
pipeline that fuses the creative diversity of a leading image editor with an
in-context video generator, overcoming the limited scope of existing models. To
make this process viable, our framework resolves the prohibitive cost-quality
trade-off by employing an efficient, distilled model architecture augmented by
a temporal enhancer, which simultaneously reduces computational overhead and
improves temporal coherence. Finally, to achieve full scalability, this entire
pipeline is driven by an intelligent agent that crafts diverse instructions and
rigorously filters the output, ensuring quality control at scale. Using this
framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of
one million high-fidelity video editing examples. We trained our model, Editto,
on Ditto-1M with a curriculum learning strategy. The results demonstrate
superior instruction-following ability and establish a new state-of-the-art in
instruction-based video editing.