Sora em Dispositivo: Habilitando Geração de Vídeo a partir de Texto Baseada em Difusão para Dispositivos Móveis

Resumo

Apresentamos o On-device Sora, uma solução pioneira para geração de texto para vídeo baseada em difusão que opera de forma eficiente em dispositivos de nível de smartphone. Baseando-se no Open-Sora, o On-device Sora aplica três técnicas inovadoras para lidar com os desafios da geração de texto para vídeo baseada em difusão em dispositivos móveis com limitações de computação e memória. Primeiramente, o Salto Proporcional Linear (LPL) reduz os passos excessivos de remoção de ruído necessários na difusão de vídeo por meio de uma abordagem eficiente baseada em saltos. Em segundo lugar, a Fusão de Token de Dimensão Temporal (TDTM) minimiza a computação intensiva de processamento de token em camadas de atenção, fundindo tokens consecutivos ao longo da dimensão temporal. Terceiramente, Inferência Concorrente com Carregamento Dinâmico (CI-DL) particiona dinamicamente modelos grandes em blocos menores e os carrega na memória para inferência de modelo concorrente, abordando efetivamente os desafios de memória limitada do dispositivo. Implementamos o On-device Sora no iPhone 15 Pro, e as avaliações experimentais demonstram que ele é capaz de gerar vídeos de alta qualidade no dispositivo, comparáveis aos produzidos pelo Open-Sora em GPUs de alta qualidade. Esses resultados mostram que o On-device Sora possibilita a geração eficiente e de alta qualidade de vídeos em dispositivos móveis com recursos limitados, ampliando a acessibilidade, garantindo a privacidade do usuário, reduzindo a dependência da infraestrutura de nuvem e diminuindo os custos associados. Visualizamos o proposto On-device Sora como um importante primeiro passo para democratizar tecnologias generativas de ponta, possibilitando capacidades de geração de vídeo em dispositivos móveis e embarcados comuns. A implementação do código está disponível publicamente em um repositório do GitHub: https://github.com/eai-lab/On-device-Sora.

English

We present On-device Sora, a first pioneering solution for diffusion-based on-device text-to-video generation that operates efficiently on smartphone-grade devices. Building on Open-Sora, On-device Sora applies three novel techniques to address the challenges of diffusion-based text-to-video generation on computation- and memory-limited mobile devices. First, Linear Proportional Leap (LPL) reduces the excessive denoising steps required in video diffusion through an efficient leap-based approach. Second, Temporal Dimension Token Merging (TDTM) minimizes intensive token-processing computation in attention layers by merging consecutive tokens along the temporal dimension. Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions large models into smaller blocks and loads them into memory for concurrent model inference, effectively addressing the challenges of limited device memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental evaluations demonstrate that it is capable of generating high-quality videos on the device, comparable to those produced by Open-Sora running on high-end GPUs. These results show that On-device Sora enables efficient and high-quality video generation on resource-constrained mobile devices, expanding accessibility, ensuring user privacy, reducing dependence on cloud infrastructure, and lowering associated costs. We envision the proposed On-device Sora as a significant first step toward democratizing state-of-the-art generative technologies, enabling video generation capabilities on commodity mobile and embedded devices. The code implementation is publicly available at an GitHub repository: https://github.com/eai-lab/On-device-Sora.

Sora em Dispositivo: Habilitando Geração de Vídeo a partir de Texto Baseada em Difusão para Dispositivos Móveis

On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices

Resumo

Support