LLaSO : Un cadre fondamental pour la recherche reproductible dans les modèles de langage et de parole à grande échelle

papers.abstract

Le développement des grands modèles de langage et de parole (LSLMs) a été ralenti par des architectures fragmentées et un manque de transparence, entravant la comparaison systématique et la reproductibilité des recherches. Contrairement au domaine vision-langage, le champ des LSLMs souffre de la pratique courante consistant à publier les poids des modèles sans leurs données d'entraînement et configurations correspondantes. Pour combler ces lacunes critiques, nous introduisons LLaSO, le premier cadre entièrement ouvert et de bout en bout pour la modélisation à grande échelle du langage et de la parole. LLaSO fournit à la communauté trois ressources essentielles : (1) LLaSO-Align, un corpus d'alignement parole-texte de 12 millions d'instances ; (2) LLaSO-Instruct, un ensemble de données de réglage par instructions multi-tâches de 13,5 millions d'instances ; et (3) LLaSO-Eval, un benchmark reproductible pour l'évaluation standardisée. Pour valider notre cadre, nous construisons et publions LLaSO-Base, un modèle de référence de 3,8 milliards de paramètres entraîné exclusivement sur nos données publiques. Il atteint un score normalisé de 0,72, établissant une base solide et reproductible qui surpasse les modèles comparables. Notre analyse révèle que si une couverture d'entraînement plus large améliore les performances, des lacunes de généralisation significatives persistent sur des tâches non vues, en particulier dans des scénarios audio purs. En publiant l'ensemble complet des données, benchmarks et modèles, LLaSO établit une norme ouverte fondamentale pour unifier les efforts de recherche et accélérer les progrès communautaires dans les LSLMs. Nous publions le code, les données, les modèles pré-entraînés et les résultats sur https://github.com/EIT-NLP/LLaSO.

English

The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language modeling. LLaSO provides the community with three essential resources: (1) LLaSO-Align, a 12M-instance speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for standardized evaluation. To validate our framework, we build and release LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public data. It achieves a normalized score of 0.72, establishing a strong, reproducible baseline that surpasses comparable models. Our analysis reveals that while broader training coverage enhances performance, significant generalization gaps persist on unseen tasks, particularly in pure audio scenarios. By releasing the complete stack of data, benchmarks, and models, LLaSO establishes a foundational open standard to unify research efforts and accelerate community-driven progress in LSLMs. We release the code, dataset, pretrained models, and results in https://github.com/EIT-NLP/LLaSO.

LLaSO : Un cadre fondamental pour la recherche reproductible dans les modèles de langage et de parole à grande échelle

LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

papers.abstract

Support