LLaSO: Ein grundlegendes Framework für reproduzierbare Forschung in großen Sprach- und Sprachmodellen
LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
August 21, 2025
papers.authors: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
cs.AI
papers.abstract
Die Entwicklung von Large Speech-Language Models (LSLMs) wurde durch fragmentierte Architekturen und einen Mangel an Transparenz verlangsamt, was die systematische Vergleichbarkeit und Reproduzierbarkeit von Forschungsergebnissen behindert. Im Gegensatz zum Bereich der Vision-Language-Modelle leidet das LSLM-Feld unter der gängigen Praxis, Modellgewichte ohne die entsprechenden Trainingsdaten und Konfigurationen zu veröffentlichen. Um diese kritischen Lücken zu schließen, stellen wir LLaSO vor, das erste vollständig offene, end-to-end Framework für die großskalige Sprachmodellierung. LLaSO bietet der Community drei wesentliche Ressourcen: (1) LLaSO-Align, ein Korpus mit 12 Millionen Instanzen zur Sprach-Text-Ausrichtung; (2) LLaSO-Instruct, ein Multi-Task-Instruction-Tuning-Datensatz mit 13,5 Millionen Instanzen; und (3) LLaSO-Eval, einen reproduzierbaren Benchmark für standardisierte Bewertungen. Um unser Framework zu validieren, entwickeln und veröffentlichen wir LLaSO-Base, ein Referenzmodell mit 3,8 Milliarden Parametern, das ausschließlich auf unseren öffentlichen Daten trainiert wurde. Es erreicht einen normalisierten Score von 0,72 und etabliert damit eine starke, reproduzierbare Baseline, die vergleichbare Modelle übertrifft. Unsere Analyse zeigt, dass zwar eine breitere Trainingsabdeckung die Leistung verbessert, signifikante Generalisierungslücken bei unbekannten Aufgaben, insbesondere in reinen Audio-Szenarien, bestehen bleiben. Durch die Veröffentlichung des vollständigen Stacks aus Daten, Benchmarks und Modellen schafft LLaSO einen grundlegenden offenen Standard, um Forschungsbemühungen zu vereinen und den gemeinschaftsgetriebenen Fortschritt im Bereich der LSLMs zu beschleunigen. Wir veröffentlichen den Code, den Datensatz, vortrainierte Modelle und die Ergebnisse unter https://github.com/EIT-NLP/LLaSO.
English
The development of Large Speech-Language Models (LSLMs) has been slowed by
fragmented architectures and a lack of transparency, hindering the systematic
comparison and reproducibility of research. Unlike in the vision-language
domain, the LSLM field suffers from the common practice of releasing model
weights without their corresponding training data and configurations. To
address these critical gaps, we introduce LLaSO, the first fully open,
end-to-end framework for large-scale speech-language modeling. LLaSO provides
the community with three essential resources: (1) LLaSO-Align, a 12M-instance
speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task
instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for
standardized evaluation. To validate our framework, we build and release
LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public
data. It achieves a normalized score of 0.72, establishing a strong,
reproducible baseline that surpasses comparable models. Our analysis reveals
that while broader training coverage enhances performance, significant
generalization gaps persist on unseen tasks, particularly in pure audio
scenarios. By releasing the complete stack of data, benchmarks, and models,
LLaSO establishes a foundational open standard to unify research efforts and
accelerate community-driven progress in LSLMs. We release the code, dataset,
pretrained models, and results in https://github.com/EIT-NLP/LLaSO.