ChatPaper.aiChatPaper

Escalado de la Edición de Vídeo Basada en Instrucciones con un Conjunto de Datos Sintéticos de Alta Calidad

Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

October 17, 2025
Autores: Qingyan Bai, Qiuyu Wang, Hao Ouyang, Yue Yu, Hanlin Wang, Wen Wang, Ka Leong Cheng, Shuailei Ma, Yanhong Zeng, Zichen Liu, Yinghao Xu, Yujun Shen, Qifeng Chen
cs.AI

Resumen

La edición de videos basada en instrucciones promete democratizar la creación de contenido, sin embargo, su progreso se ve severamente obstaculizado por la escasez de datos de entrenamiento a gran escala y de alta calidad. Presentamos Ditto, un marco holístico diseñado para abordar este desafío fundamental. En su núcleo, Ditto cuenta con una novedosa canalización de generación de datos que fusiona la diversidad creativa de un editor de imágenes líder con un generador de videos en contexto, superando el alcance limitado de los modelos existentes. Para hacer viable este proceso, nuestro marco resuelve la compensación prohibitiva entre costo y calidad mediante el empleo de una arquitectura de modelo eficiente y destilada, aumentada por un potenciador temporal, que reduce simultáneamente la sobrecarga computacional y mejora la coherencia temporal. Finalmente, para lograr una escalabilidad completa, toda esta canalización es impulsada por un agente inteligente que elabora instrucciones diversas y filtra rigurosamente la salida, garantizando el control de calidad a escala. Utilizando este marco, invertimos más de 12,000 días-GPU para construir Ditto-1M, un nuevo conjunto de datos de un millón de ejemplos de edición de video de alta fidelidad. Entrenamos nuestro modelo, Editto, en Ditto-1M con una estrategia de aprendizaje curricular. Los resultados demuestran una capacidad superior para seguir instrucciones y establecen un nuevo estado del arte en la edición de videos basada en instrucciones.
English
Instruction-based video editing promises to democratize content creation, yet its progress is severely hampered by the scarcity of large-scale, high-quality training data. We introduce Ditto, a holistic framework designed to tackle this fundamental challenge. At its heart, Ditto features a novel data generation pipeline that fuses the creative diversity of a leading image editor with an in-context video generator, overcoming the limited scope of existing models. To make this process viable, our framework resolves the prohibitive cost-quality trade-off by employing an efficient, distilled model architecture augmented by a temporal enhancer, which simultaneously reduces computational overhead and improves temporal coherence. Finally, to achieve full scalability, this entire pipeline is driven by an intelligent agent that crafts diverse instructions and rigorously filters the output, ensuring quality control at scale. Using this framework, we invested over 12,000 GPU-days to build Ditto-1M, a new dataset of one million high-fidelity video editing examples. We trained our model, Editto, on Ditto-1M with a curriculum learning strategy. The results demonstrate superior instruction-following ability and establish a new state-of-the-art in instruction-based video editing.
PDF452October 20, 2025