Seedance 1.5 Pro: Ein natives audiovisuelles Joint-Generation-Foundation-Modell

Zusammenfassung

Jüngste Fortschritte in der Videogenerierung haben den Weg für eine einheitliche audiovisuelle Generierung geebnet. In dieser Arbeit präsentieren wir Seedance 1.5 pro, ein Fundamentalmodel, das speziell für die native, gemeinsame Audio-Video-Generierung entwickelt wurde. Durch die Nutzung einer Dual-Branch-Diffusion-Transformer-Architektur integriert das Model ein cross-modales Joint-Modul mit einer spezialisierten mehrstufigen Datenpipeline und erreicht so eine außergewöhnliche audiovisuelle Synchronisation sowie überlegene Generierungsqualität. Um die praktische Nutzbarkeit zu gewährleisten, implementieren wir sorgfältige Nachtrainingsoptimierungen, einschließlich Supervised Fine-Tuning (SFT) auf hochwertigen Datensätzen und Reinforcement Learning from Human Feedback (RLHF) mit multidimensionalen Belohnungsmodellen. Darüber hinaus führen wir ein Beschleunigungsframework ein, das die Inferenzgeschwindigkeit um mehr als das 10-fache steigert. Seedance 1.5 pro zeichnet sich durch präzises multilinguales und dialektales Lippen-Syncing, dynamische filmische Kamerasteuerung und verbesserte narrative Kohärenz aus und positioniert sich damit als robuste Engine für professionelle Inhalteerstellung. Seedance 1.5 pro ist nun auf Volcano Engine unter https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo verfügbar.

English

Recent strides in video generation have paved the way for unified audio-visual generation. In this work, we present Seedance 1.5 pro, a foundational model engineered specifically for native, joint audio-video generation. Leveraging a dual-branch Diffusion Transformer architecture, the model integrates a cross-modal joint module with a specialized multi-stage data pipeline, achieving exceptional audio-visual synchronization and superior generation quality. To ensure practical utility, we implement meticulous post-training optimizations, including Supervised Fine-Tuning (SFT) on high-quality datasets and Reinforcement Learning from Human Feedback (RLHF) with multi-dimensional reward models. Furthermore, we introduce an acceleration framework that boosts inference speed by over 10X. Seedance 1.5 pro distinguishes itself through precise multilingual and dialect lip-syncing, dynamic cinematic camera control, and enhanced narrative coherence, positioning it as a robust engine for professional-grade content creation. Seedance 1.5 pro is now accessible on Volcano Engine at https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.

Seedance 1.5 Pro: Ein natives audiovisuelles Joint-Generation-Foundation-Modell

Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Zusammenfassung

Support