Seedance 1.0: Explorando os Limites dos Modelos de Geração de Vídeo

Resumo

Avanços notáveis em modelagem de difusão têm impulsionado melhorias rápidas na geração de vídeos, mas os modelos fundamentais atuais ainda enfrentam desafios críticos ao equilibrar simultaneamente a adesão a prompts, a plausibilidade do movimento e a qualidade visual. Neste relatório, apresentamos o Seedance 1.0, um modelo de geração de vídeo fundamental de alto desempenho e eficiente em inferência que integra várias melhorias técnicas centrais: (i) curadoria de dados de múltiplas fontes aprimorada com legendagem de vídeo precisa e significativa, permitindo aprendizado abrangente em diversos cenários; (ii) um design de arquitetura eficiente com um paradigma de treinamento proposto, que permite suporte nativo à geração de múltiplas cenas e aprendizado conjunto de tarefas de texto-para-vídeo e imagem-para-vídeo; (iii) abordagens pós-treinamento cuidadosamente otimizadas que aproveitam ajuste fino supervisionado de granularidade fina e RLHF (Reinforcement Learning from Human Feedback) específico para vídeo com mecanismos de recompensa multidimensionais para melhorias abrangentes de desempenho; (iv) excelente aceleração do modelo, alcançando uma aceleração de inferência de ~10x por meio de estratégias de destilação em múltiplos estágios e otimizações em nível de sistema. O Seedance 1.0 pode gerar um vídeo de 5 segundos em resolução 1080p em apenas 41,4 segundos (NVIDIA-L20). Em comparação com os modelos de geração de vídeo mais avançados, o Seedance 1.0 se destaca com geração de vídeo de alta qualidade e rápida, apresentando fluidez espaço-temporal superior com estabilidade estrutural, adesão precisa a instruções em contextos complexos com múltiplos sujeitos e coerência narrativa nativa em múltiplas cenas com representação consistente do sujeito.

English

Notable breakthroughs in diffusion modeling have propelled rapid improvements in video generation, yet current foundational model still face critical challenges in simultaneously balancing prompt following, motion plausibility, and visual quality. In this report, we introduce Seedance 1.0, a high-performance and inference-efficient video foundation generation model that integrates several core technical improvements: (i) multi-source data curation augmented with precision and meaningful video captioning, enabling comprehensive learning across diverse scenarios; (ii) an efficient architecture design with proposed training paradigm, which allows for natively supporting multi-shot generation and jointly learning of both text-to-video and image-to-video tasks. (iii) carefully-optimized post-training approaches leveraging fine-grained supervised fine-tuning, and video-specific RLHF with multi-dimensional reward mechanisms for comprehensive performance improvements; (iv) excellent model acceleration achieving ~10x inference speedup through multi-stage distillation strategies and system-level optimizations. Seedance 1.0 can generate a 5-second video at 1080p resolution only with 41.4 seconds (NVIDIA-L20). Compared to state-of-the-art video generation models, Seedance 1.0 stands out with high-quality and fast video generation having superior spatiotemporal fluidity with structural stability, precise instruction adherence in complex multi-subject contexts, native multi-shot narrative coherence with consistent subject representation.

Seedance 1.0: Explorando os Limites dos Modelos de Geração de Vídeo

Seedance 1.0: Exploring the Boundaries of Video Generation Models

Resumo

Support