Sora em Dispositivo: Habilitando Geração de Vídeo a partir de Texto Baseada em Difusão para Dispositivos Móveis
On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices
February 5, 2025
Autores: Bosung Kim, Kyuhwan Lee, Isu Jeong, Jungmin Cheon, Yeojin Lee, Seulki Lee
cs.AI
Resumo
Apresentamos o On-device Sora, uma solução pioneira para geração de texto para vídeo baseada em difusão que opera de forma eficiente em dispositivos de nível de smartphone. Baseando-se no Open-Sora, o On-device Sora aplica três técnicas inovadoras para lidar com os desafios da geração de texto para vídeo baseada em difusão em dispositivos móveis com limitações de computação e memória. Primeiramente, o Salto Proporcional Linear (LPL) reduz os passos excessivos de remoção de ruído necessários na difusão de vídeo por meio de uma abordagem eficiente baseada em saltos. Em segundo lugar, a Fusão de Token de Dimensão Temporal (TDTM) minimiza a computação intensiva de processamento de token em camadas de atenção, fundindo tokens consecutivos ao longo da dimensão temporal. Terceiramente, Inferência Concorrente com Carregamento Dinâmico (CI-DL) particiona dinamicamente modelos grandes em blocos menores e os carrega na memória para inferência de modelo concorrente, abordando efetivamente os desafios de memória limitada do dispositivo. Implementamos o On-device Sora no iPhone 15 Pro, e as avaliações experimentais demonstram que ele é capaz de gerar vídeos de alta qualidade no dispositivo, comparáveis aos produzidos pelo Open-Sora em GPUs de alta qualidade. Esses resultados mostram que o On-device Sora possibilita a geração eficiente e de alta qualidade de vídeos em dispositivos móveis com recursos limitados, ampliando a acessibilidade, garantindo a privacidade do usuário, reduzindo a dependência da infraestrutura de nuvem e diminuindo os custos associados. Visualizamos o proposto On-device Sora como um importante primeiro passo para democratizar tecnologias generativas de ponta, possibilitando capacidades de geração de vídeo em dispositivos móveis e embarcados comuns. A implementação do código está disponível publicamente em um repositório do GitHub: https://github.com/eai-lab/On-device-Sora.
English
We present On-device Sora, a first pioneering solution for diffusion-based
on-device text-to-video generation that operates efficiently on
smartphone-grade devices. Building on Open-Sora, On-device Sora applies three
novel techniques to address the challenges of diffusion-based text-to-video
generation on computation- and memory-limited mobile devices. First, Linear
Proportional Leap (LPL) reduces the excessive denoising steps required in video
diffusion through an efficient leap-based approach. Second, Temporal Dimension
Token Merging (TDTM) minimizes intensive token-processing computation in
attention layers by merging consecutive tokens along the temporal dimension.
Third, Concurrent Inference with Dynamic Loading (CI-DL) dynamically partitions
large models into smaller blocks and loads them into memory for concurrent
model inference, effectively addressing the challenges of limited device
memory. We implement On-device Sora on the iPhone 15 Pro, and the experimental
evaluations demonstrate that it is capable of generating high-quality videos on
the device, comparable to those produced by Open-Sora running on high-end GPUs.
These results show that On-device Sora enables efficient and high-quality video
generation on resource-constrained mobile devices, expanding accessibility,
ensuring user privacy, reducing dependence on cloud infrastructure, and
lowering associated costs. We envision the proposed On-device Sora as a
significant first step toward democratizing state-of-the-art generative
technologies, enabling video generation capabilities on commodity mobile and
embedded devices. The code implementation is publicly available at an GitHub
repository: https://github.com/eai-lab/On-device-Sora.Summary
AI-Generated Summary