SongGen : Un transformeur auto-régressif en une seule étape pour la génération de texte vers chanson
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation
February 18, 2025
Auteurs: Zihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Résumé
La génération de chansons à partir de texte, consistant à créer des voix et des accompagnements à partir d'entrées textuelles, présente des défis majeurs en raison de la complexité du domaine et de la rareté des données. Les approches existantes utilisent souvent des procédures de génération en plusieurs étapes, ce qui entraîne des pipelines d'entraînement et d'inférence lourds. Dans cet article, nous proposons SongGen, un transformeur auto-régressif en une seule étape, entièrement open-source, conçu pour la génération contrôlée de chansons. Le modèle proposé permet un contrôle précis sur divers attributs musicaux, notamment les paroles et les descriptions textuelles de l'instrumentation, du genre, de l'ambiance et du timbre, tout en offrant la possibilité d'utiliser un clip de référence de trois secondes pour le clonage vocal. Dans un cadre auto-régressif unifié, SongGen prend en charge deux modes de sortie : le mode mixte, qui génère directement un mélange de voix et d'accompagnement, et le mode double piste, qui les synthétise séparément pour une plus grande flexibilité dans les applications en aval. Nous explorons diverses stratégies de motifs de tokens pour chaque mode, conduisant à des améliorations notables et à des insights précieux. De plus, nous concevons un pipeline de prétraitement de données automatisé avec un contrôle de qualité efficace. Pour favoriser l'engagement de la communauté et les recherches futures, nous publierons les poids de notre modèle, le code d'entraînement, les données annotées et le pipeline de prétraitement. Les échantillons générés sont présentés sur notre page de projet à l'adresse https://liuzh-19.github.io/SongGen/, et le code sera disponible à l'adresse https://github.com/LiuZH-19/SongGen.
English
Text-to-song generation, the task of creating vocals and accompaniment from
textual inputs, poses significant challenges due to domain complexity and data
scarcity. Existing approaches often employ multi-stage generation procedures,
resulting in cumbersome training and inference pipelines. In this paper, we
propose SongGen, a fully open-source, single-stage auto-regressive transformer
designed for controllable song generation. The proposed model facilitates
fine-grained control over diverse musical attributes, including lyrics and
textual descriptions of instrumentation, genre, mood, and timbre, while also
offering an optional three-second reference clip for voice cloning. Within a
unified auto-regressive framework, SongGen supports two output modes: mixed
mode, which generates a mixture of vocals and accompaniment directly, and
dual-track mode, which synthesizes them separately for greater flexibility in
downstream applications. We explore diverse token pattern strategies for each
mode, leading to notable improvements and valuable insights. Furthermore, we
design an automated data preprocessing pipeline with effective quality control.
To foster community engagement and future research, we will release our model
weights, training code, annotated data, and preprocessing pipeline. The
generated samples are showcased on our project page at
https://liuzh-19.github.io/SongGen/ , and the code will be available at
https://github.com/LiuZH-19/SongGen .Summary
AI-Generated Summary