Seedance 1.5 Pro: Um Modelo de Base Nativo para Geração Conjunta Áudio-Visual

Resumo

Os recentes avanços na geração de vídeo abriram caminho para a geração audiovisual unificada. Neste trabalho, apresentamos o Seedance 1.5 pro, um modelo fundamental projetado especificamente para geração nativa conjunta de áudio e vídeo. Utilizando uma arquitetura Dual-branch Diffusion Transformer, o modelo integra um módulo conjunto cross-modal com um pipeline de dados multietapa especializado, alcançando sincronização audiovisual excepcional e qualidade de geração superior. Para garantir utilidade prática, implementamos otimizações minuciosas de pós-treinamento, incluindo Ajuste Fino Supervisionado (SFT) em conjuntos de dados de alta qualidade e Aprendizado por Reforço com Feedback Humano (RLHF) com modelos de recompensa multidimensionais. Além disso, introduzimos uma estrutura de aceleração que aumenta a velocidade de inferência em mais de 10 vezes. O Seedance 1.5 pro destaca-se pela sincronização labial precisa em múltiplos idiomas e dialetos, controle dinâmico de câmera cinematográfica e coerência narrativa aprimorada, posicionando-se como um motor robusto para criação de conteúdo de nível profissional. O Seedance 1.5 pro está agora acessível no Volcano Engine em https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.

English

Recent strides in video generation have paved the way for unified audio-visual generation. In this work, we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation. Leveraging a dual-branch Diffusion Transformer architecture, the model integrates a cross-modal joint module with a specialized multi-stage data pipeline, achieving exceptional audio-visual synchronization and superior generation quality. To ensure practical utility, we implement meticulous post-training optimizations, including Supervised Fine-Tuning (SFT) on high-quality datasets and Reinforcement Learning from Human Feedback (RLHF) with multi-dimensional reward models. Furthermore, we introduce an acceleration framework that boosts inference speed by over 10X. Seedance 1.5 pro distinguishes itself through precise multilingual and dialect lip-syncing, dynamic cinematic camera control, and enhanced narrative coherence, positioning it as a robust engine for professional-grade content creation. Seedance 1.5 pro is now accessible on Volcano Engine at https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.