LoomVideo: Unificación de entradas multimodales para la generación y edición de video

Resumen

Desarrollar modelos unificados de generación y edición de video capaces de interpretar entradas multimodales intercaladas constituye un campo fronterizo prometedor pero desafiante. Los marcos unificados existentes dependen predominantemente de modelos masivos (típicamente de 13B parámetros o más) e incorporan condiciones de video fuente para la edición mediante la concatenación de tokens de secuencia. Esta concatenación duplica inevitablemente la longitud de la secuencia, cuadruplicando la complejidad computacional del mecanismo de autoatención e introduciendo una sobrecarga prohibitiva. Para abordar estos cuellos de botella, presentamos LoomVideo, una arquitectura unificada de 5B parámetros altamente eficiente tanto para generación como para edición de video. LoomVideo reemplaza el codificador de texto estándar con un Modelo de Lenguaje Grande Multimodal (MLLM) y emplea un mecanismo de inyección Deepstack para alinear las características MLLM de múltiples capas con el Transformer de Difusión (DiT). De manera crucial, introducimos un enfoque de condicionamiento Scale-and-Add con sobrecarga cero para la edición de video. Al escalar y sumar directamente el latente de video fuente limpio al latente objetivo ruidoso, este diseño elegante elimina la necesidad de concatenación de tokens, reduciendo drásticamente el costo computacional mientras mantiene capacidades robustas para ediciones complejas no rígidas. Además, se integra de manera fluida una estrategia de RoPE Temporal Negativa para manejar múltiples imágenes de referencia. Experimentos exhaustivos demuestran que nuestro modelo compacto de 5B logra un rendimiento de vanguardia o altamente competitivo en puntos de referencia integrales, exhibiendo una superioridad excepcional en escenarios de generación de comercio electrónico y moda. Gracias al mecanismo de condicionamiento de sobrecarga cero, LoomVideo logra al menos una aceleración de 5.41x en velocidad de inferencia en comparación con modelos de capacidades similares, allanando el camino para modelos fundacionales de video altamente prácticos y eficientes.

English

Developing unified video generation and editing models capable of interpreting interleaved multimodal inputs is a promising yet challenging frontier field. Existing unified frameworks predominantly rely on massive models (typically 13B parameters or more) and incorporate source video conditions for editing by concatenating sequence tokens. This concatenation inevitably doubles the sequence length, quadrupling the computational complexity of the self-attention mechanism and introducing prohibitive overhead. To address these bottlenecks, we present LoomVideo, a highly efficient 5B-parameter unified architecture for both video generation and editing. LoomVideo replaces the standard text encoder with a Multimodal Large Language Model (MLLM) and employs Deepstack injection mechanism to align multi-layer MLLM features with the Diffusion Transformer (DiT). Crucially, we introduce a zero-overhead Scale-and-Add conditioning approach for video editing. By scaling and directly adding the clean source video latent to the noised target latent, this elegant design eliminates the need for token concatenation, drastically reducing computational cost while maintaining robust capabilities for complex, non-rigid edits. Furthermore, a Negative Temporal RoPE strategy is seamlessly integrated to handle multiple reference images. Extensive experiments demonstrate that our compact 5B model achieves state-of-the-art or highly competitive performance across comprehensive benchmarks, exhibiting exceptional superiority in e-commerce and fashion generation scenarios. Benefiting from the zero-overhead conditioning mechanism, LoomVideo achieves at least a 5.41x acceleration in inference speed compared to models of similar capabilities, paving the way for highly practical and efficient video foundation models.