Slamming : Entraîner un modèle de langage vocal sur un seul GPU en une journée
Slamming: Training a Speech Language Model on One GPU in a Day
February 19, 2025
Auteurs: Gallil Maimon, Avishai Elmakies, Yossi Adi
cs.AI
Résumé
Nous présentons Slam, une méthode pour entraîner des modèles de langage vocal (SLM) de haute qualité sur un seul GPU académique en 24 heures. Cela est rendu possible grâce à une analyse empirique de l'initialisation et de l'architecture du modèle, des données d'entraînement synthétiques, de l'optimisation des préférences avec des données synthétiques et de l'ajustement de tous les autres composants. Nous démontrons empiriquement que cette méthode d'entraînement s'adapte également bien à des ressources de calcul plus importantes, obtenant des résultats comparables aux meilleurs SLM pour une fraction du coût de calcul. Nous espérons que ces insights rendront l'entraînement et la recherche sur les SLM plus accessibles. Dans le contexte des lois d'échelle des SLM, nos résultats surpassent largement les performances optimales prédites en termes de calcul, offrant une perspective optimiste quant à la faisabilité des SLM. Consultez le code, les données, les modèles et les échantillons sur https://pages.cs.huji.ac.il/adiyoss-lab/slamming.
English
We introduce Slam, a recipe for training high-quality Speech Language Models
(SLMs) on a single academic GPU in 24 hours. We do so through empirical
analysis of model initialisation and architecture, synthetic training data,
preference optimisation with synthetic data and tweaking all other components.
We empirically demonstrate that this training recipe also scales well with more
compute getting results on par with leading SLMs in a fraction of the compute
cost. We hope these insights will make SLM training and research more
accessible. In the context of SLM scaling laws, our results far outperform
predicted compute optimal performance, giving an optimistic view to SLM
feasibility. See code, data, models, samples at -
https://pages.cs.huji.ac.il/adiyoss-lab/slamming .Summary
AI-Generated Summary