Scalabilità dell'Editing Video Basato su Istruzioni con un Dataset Sintetico di Alta Qualità

Abstract

L'editing video basato su istruzioni promette di democratizzare la creazione di contenuti, ma il suo progresso è fortemente ostacolato dalla scarsità di dati di addestramento su larga scala e di alta qualità. Presentiamo Ditto, un framework olistico progettato per affrontare questa sfida fondamentale. Al suo cuore, Ditto presenta una nuova pipeline di generazione dati che combina la diversità creativa di un editor di immagini leader con un generatore di video in contesto, superando i limiti dei modelli esistenti. Per rendere questo processo fattibile, il nostro framework risolve il compromesso proibitivo tra costo e qualità impiegando un'architettura di modello efficiente e distillata, potenziata da un miglioratore temporale, che riduce simultaneamente il sovraccarico computazionale e migliora la coerenza temporale. Infine, per raggiungere una piena scalabilità, l'intera pipeline è guidata da un agente intelligente che crea istruzioni diversificate e filtra rigorosamente l'output, garantendo il controllo di qualità su larga scala. Utilizzando questo framework, abbiamo investito oltre 12.000 giorni-GPU per costruire Ditto-1M, un nuovo dataset di un milione di esempi di editing video ad alta fedeltà. Abbiamo addestrato il nostro modello, Editto, su Ditto-1M con una strategia di apprendimento curriculare. I risultati dimostrano una superiore capacità di seguire le istruzioni e stabiliscono un nuovo stato dell'arte nell'editing video basato su istruzioni.

English

Instruction-based video editing promises to democratize content creation, yet its progress is severely hampered by the scarcity of large-scale, high-quality training data. We introduce Ditto, a holistic framework designed to tackle this fundamental challenge. At its heart, Ditto features a novel data generation pipeline that fuses the creative diversity of a leading image editor with an in-context video generator, overcoming the limited scope of existing models. To make this process viable, our framework resolves the prohibitive cost-quality trade-off by employing an efficient, distilled model architecture augmented by a temporal enhancer, which simultaneously reduces computational overhead and improves temporal coherence. Finally, to achieve full scalability, this entire pipeline is driven by an intelligent agent that crafts diverse instructions and rigorously filters the output, ensuring quality control at scale. Using this framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of one million high-fidelity video editing examples. We trained our model, Editto, on Ditto-1M with a curriculum learning strategy. The results demonstrate superior instruction-following ability and establish a new state-of-the-art in instruction-based video editing.

Scalabilità dell'Editing Video Basato su Istruzioni con un Dataset Sintetico di Alta Qualità

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

Abstract

Support