LoomVideo: Verenigen van multimodale inputs in videogeneratie en -bewerking

Samenvatting

Het ontwikkelen van uniforme videogeneratie- en bewerkingsmodellen die in staat zijn om afgewisselde multimodale invoer te interpreteren, is een veelbelovend maar uitdagend grensgebied. Bestaande uniforme raamwerken zijn voornamelijk afhankelijk van massieve modellen (doorgaans 13B parameters of meer) en integreren bronvideocondities voor bewerking door sequentietokens aaneen te schakelen. Deze aaneenschakeling verdubbelt onvermijdelijk de sequentielengte, waardoor de rekencomplexiteit van het zelfaandachtsmechanisme verviervoudigt en een onbetaalbare overhead ontstaat. Om deze knelpunten aan te pakken presenteren wij LoomVideo, een zeer efficiënte 5B-parameter uniforme architectuur voor zowel videogeneratie als -bewerking. LoomVideo vervangt de standaard tekstencoder door een Multimodaal Groot Taalmodel (MLLM) en gebruikt een Deepstack-injectiemechanisme om MLLM-kenmerken op meerdere lagen af te stemmen op de Diffusietransformator (DiT). Cruciaal is dat wij een zero-overhead Scale-and-Add-conditioneringsaanpak introduceren voor videobewerking. Door de schone bronvideo-latent direct op te schalen en toe te voegen aan de geruiste doellatent, elimineert dit elegante ontwerp de noodzaak voor token-aaneenschakeling, waardoor de rekenkosten drastisch worden verlaagd terwijl robuuste mogelijkheden voor complexe, niet-rigide bewerkingen behouden blijven. Bovendien wordt een Negatieve Temporele RoPE-strategie naadloos geïntegreerd om meerdere referentieafbeeldingen te verwerken. Uitgebreide experimenten tonen aan dat ons compacte 5B-model state-of-the-art of zeer competitieve prestaties levert op uitgebreide benchmarks, met uitzonderlijke superioriteit in e-commerce- en fashion-generatiescenario's. Dankzij het zero-overhead-conditioneringsmechanisme bereikt LoomVideo ten minste een 5,41x versnelling in inferentiesnelheid vergeleken met modellen met vergelijkbare mogelijkheden, wat de weg vrijmaakt voor zeer praktische en efficiënte videobasismodellen.

English

Developing unified video generation and editing models capable of interpreting interleaved multimodal inputs is a promising yet challenging frontier field. Existing unified frameworks predominantly rely on massive models (typically 13B parameters or more) and incorporate source video conditions for editing by concatenating sequence tokens. This concatenation inevitably doubles the sequence length, quadrupling the computational complexity of the self-attention mechanism and introducing prohibitive overhead. To address these bottlenecks, we present LoomVideo, a highly efficient 5B-parameter unified architecture for both video generation and editing. LoomVideo replaces the standard text encoder with a Multimodal Large Language Model (MLLM) and employs Deepstack injection mechanism to align multi-layer MLLM features with the Diffusion Transformer (DiT). Crucially, we introduce a zero-overhead Scale-and-Add conditioning approach for video editing. By scaling and directly adding the clean source video latent to the noised target latent, this elegant design eliminates the need for token concatenation, drastically reducing computational cost while maintaining robust capabilities for complex, non-rigid edits. Furthermore, a Negative Temporal RoPE strategy is seamlessly integrated to handle multiple reference images. Extensive experiments demonstrate that our compact 5B model achieves state-of-the-art or highly competitive performance across comprehensive benchmarks, exhibiting exceptional superiority in e-commerce and fashion generation scenarios. Benefiting from the zero-overhead conditioning mechanism, LoomVideo achieves at least a 5.41x acceleration in inference speed compared to models of similar capabilities, paving the way for highly practical and efficient video foundation models.