LLaSO: Een Fundamenteel Framework voor Reproduceerbaar Onderzoek in Grote Taal- en Spraakmodellen
LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
August 21, 2025
Auteurs: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
cs.AI
Samenvatting
De ontwikkeling van Large Speech-Language Models (LSLMs) is vertraagd door gefragmenteerde architecturen en een gebrek aan transparantie, wat de systematische vergelijking en reproduceerbaarheid van onderzoek belemmert. In tegenstelling tot het vision-language domein, kampt het LSLM-veld met de gangbare praktijk om modelgewichten vrij te geven zonder de bijbehorende trainingsdata en configuraties. Om deze kritieke tekortkomingen aan te pakken, introduceren we LLaSO, het eerste volledig open, end-to-end raamwerk voor grootschalige spraak-taalmodellering. LLaSO biedt de gemeenschap drie essentiële bronnen: (1) LLaSO-Align, een corpus van 12 miljoen spraak-tekst-aligneringen; (2) LLaSO-Instruct, een multi-task instructie-afstemmingsdataset van 13,5 miljoen instanties; en (3) LLaSO-Eval, een reproduceerbare benchmark voor gestandaardiseerde evaluatie. Om ons raamwerk te valideren, bouwen en releasen we LLaSO-Base, een referentiemodel met 3,8 miljard parameters dat uitsluitend is getraind op onze openbare data. Het behaalt een genormaliseerde score van 0,72, waarmee een sterke, reproduceerbare basislijn wordt gevestigd die vergelijkbare modellen overtreft. Onze analyse toont aan dat hoewel een bredere trainingsdekking de prestaties verbetert, er aanzienlijke generalisatiekloofjes blijven bestaan bij onbekende taken, met name in pure audio-scenario's. Door de volledige stack van data, benchmarks en modellen vrij te geven, stelt LLaSO een fundamentele open standaard vast om onderzoeksinspanningen te verenigen en gemeenschapsgedreven vooruitgang in LSLMs te versnellen. We hebben de code, dataset, voorgetrainde modellen en resultaten vrijgegeven op https://github.com/EIT-NLP/LLaSO.
English
The development of Large Speech-Language Models (LSLMs) has been slowed by
fragmented architectures and a lack of transparency, hindering the systematic
comparison and reproducibility of research. Unlike in the vision-language
domain, the LSLM field suffers from the common practice of releasing model
weights without their corresponding training data and configurations. To
address these critical gaps, we introduce LLaSO, the first fully open,
end-to-end framework for large-scale speech-language modeling. LLaSO provides
the community with three essential resources: (1) LLaSO-Align, a 12M-instance
speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task
instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for
standardized evaluation. To validate our framework, we build and release
LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public
data. It achieves a normalized score of 0.72, establishing a strong,
reproducible baseline that surpasses comparable models. Our analysis reveals
that while broader training coverage enhances performance, significant
generalization gaps persist on unseen tasks, particularly in pure audio
scenarios. By releasing the complete stack of data, benchmarks, and models,
LLaSO establishes a foundational open standard to unify research efforts and
accelerate community-driven progress in LSLMs. We release the code, dataset,
pretrained models, and results in https://github.com/EIT-NLP/LLaSO.