LLaSO : Un cadre fondamental pour la recherche reproductible dans les modèles de langage et de parole à grande échelle
LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
August 21, 2025
papers.authors: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
cs.AI
papers.abstract
Le développement des grands modèles de langage et de parole (LSLMs) a été ralenti par des architectures fragmentées et un manque de transparence, entravant la comparaison systématique et la reproductibilité des recherches. Contrairement au domaine vision-langage, le champ des LSLMs souffre de la pratique courante consistant à publier les poids des modèles sans leurs données d'entraînement et configurations correspondantes. Pour combler ces lacunes critiques, nous introduisons LLaSO, le premier cadre entièrement ouvert et de bout en bout pour la modélisation à grande échelle du langage et de la parole. LLaSO fournit à la communauté trois ressources essentielles : (1) LLaSO-Align, un corpus d'alignement parole-texte de 12 millions d'instances ; (2) LLaSO-Instruct, un ensemble de données de réglage par instructions multi-tâches de 13,5 millions d'instances ; et (3) LLaSO-Eval, un benchmark reproductible pour l'évaluation standardisée. Pour valider notre cadre, nous construisons et publions LLaSO-Base, un modèle de référence de 3,8 milliards de paramètres entraîné exclusivement sur nos données publiques. Il atteint un score normalisé de 0,72, établissant une base solide et reproductible qui surpasse les modèles comparables. Notre analyse révèle que si une couverture d'entraînement plus large améliore les performances, des lacunes de généralisation significatives persistent sur des tâches non vues, en particulier dans des scénarios audio purs. En publiant l'ensemble complet des données, benchmarks et modèles, LLaSO établit une norme ouverte fondamentale pour unifier les efforts de recherche et accélérer les progrès communautaires dans les LSLMs. Nous publions le code, les données, les modèles pré-entraînés et les résultats sur https://github.com/EIT-NLP/LLaSO.
English
The development of Large Speech-Language Models (LSLMs) has been slowed by
fragmented architectures and a lack of transparency, hindering the systematic
comparison and reproducibility of research. Unlike in the vision-language
domain, the LSLM field suffers from the common practice of releasing model
weights without their corresponding training data and configurations. To
address these critical gaps, we introduce LLaSO, the first fully open,
end-to-end framework for large-scale speech-language modeling. LLaSO provides
the community with three essential resources: (1) LLaSO-Align, a 12M-instance
speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task
instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for
standardized evaluation. To validate our framework, we build and release
LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public
data. It achieves a normalized score of 0.72, establishing a strong,
reproducible baseline that surpasses comparable models. Our analysis reveals
that while broader training coverage enhances performance, significant
generalization gaps persist on unseen tasks, particularly in pure audio
scenarios. By releasing the complete stack of data, benchmarks, and models,
LLaSO establishes a foundational open standard to unify research efforts and
accelerate community-driven progress in LSLMs. We release the code, dataset,
pretrained models, and results in https://github.com/EIT-NLP/LLaSO.