Escalonando a Edição de Vídeos Baseada em Instruções com um Conjunto de Dados Sintético de Alta Qualidade
Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset
October 17, 2025
Autores: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI
Resumo
A edição de vídeo baseada em instruções promete democratizar a criação de conteúdo, mas
seu progresso é severamente limitado pela escassez de dados de treinamento em larga escala e
alta qualidade. Apresentamos o Ditto, uma estrutura holística projetada para enfrentar esse
desafio fundamental. No cerne do Ditto, está um pipeline inovador de geração de dados que
combina a diversidade criativa de um editor de imagens líder com um gerador de vídeos em
contexto, superando as limitações dos modelos existentes. Para tornar esse processo viável,
nossa estrutura resolve a relação custo-qualidade proibitiva ao empregar uma arquitetura de
modelo eficiente e destilada, aprimorada por um reforçador temporal, que simultaneamente
reduz a sobrecarga computacional e melhora a coerência temporal. Por fim, para alcançar
escalabilidade total, todo esse pipeline é impulsionado por um agente inteligente que cria
instruções diversas e filtra rigorosamente a saída, garantindo controle de qualidade em
escala. Usando essa estrutura, investimos mais de 12.000 dias de GPU para construir o
Ditto-1M, um novo conjunto de dados com um milhão de exemplos de edição de vídeo de alta
fidelidade. Treinamos nosso modelo, o Editto, no Ditto-1M com uma estratégia de aprendizado
curricular. Os resultados demonstram uma capacidade superior de seguir instruções e
estabelecem um novo estado da arte na edição de vídeo baseada em instruções.
English
Instruction-based video editing promises to democratize content creation, yet
its progress is severely hampered by the scarcity of large-scale, high-quality
training data. We introduce Ditto, a holistic framework designed to tackle this
fundamental challenge. At its heart, Ditto features a novel data generation
pipeline that fuses the creative diversity of a leading image editor with an
in-context video generator, overcoming the limited scope of existing models. To
make this process viable, our framework resolves the prohibitive cost-quality
trade-off by employing an efficient, distilled model architecture augmented by
a temporal enhancer, which simultaneously reduces computational overhead and
improves temporal coherence. Finally, to achieve full scalability, this entire
pipeline is driven by an intelligent agent that crafts diverse instructions and
rigorously filters the output, ensuring quality control at scale. Using this
framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of
one million high-fidelity video editing examples. We trained our model, Editto,
on Ditto-1M with a curriculum learning strategy. The results demonstrate
superior instruction-following ability and establish a new state-of-the-art in
instruction-based video editing.