LLaSO: Un Framework Fondamentale per la Ricerca Riproducibile nei Modelli Linguistici e Vocali su Grande Scala

Abstract

Lo sviluppo dei Large Speech-Language Models (LSLMs) è stato rallentato da architetture frammentate e da una mancanza di trasparenza, ostacolando il confronto sistematico e la riproducibilità della ricerca. A differenza del dominio vision-language, il campo degli LSLM soffre della pratica comune di rilasciare i pesi dei modelli senza i corrispondenti dati di addestramento e configurazioni. Per colmare queste lacune critiche, introduciamo LLaSO, il primo framework completamente aperto e end-to-end per il modeling su larga scala di speech-language. LLaSO fornisce alla comunità tre risorse essenziali: (1) LLaSO-Align, un corpus di allineamento speech-text da 12 milioni di istanze; (2) LLaSO-Instruct, un dataset multi-task per l'instruction-tuning da 13,5 milioni di istanze; e (3) LLaSO-Eval, un benchmark riproducibile per la valutazione standardizzata. Per validare il nostro framework, abbiamo costruito e rilasciato LLaSO-Base, un modello di riferimento da 3,8 miliardi di parametri addestrato esclusivamente sui nostri dati pubblici. Raggiunge un punteggio normalizzato di 0,72, stabilendo una baseline forte e riproducibile che supera modelli comparabili. La nostra analisi rivela che, sebbene una copertura più ampia dell'addestramento migliori le prestazioni, persistono significativi gap di generalizzazione su task non visti, in particolare in scenari puramente audio. Rilasciando l'intero stack di dati, benchmark e modelli, LLaSO stabilisce uno standard aperto di base per unificare gli sforzi di ricerca e accelerare il progresso guidato dalla comunità negli LSLM. Rilasciamo il codice, il dataset, i modelli pre-addestrati e i risultati su https://github.com/EIT-NLP/LLaSO.

English

The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language modeling. LLaSO provides the community with three essential resources: (1) LLaSO-Align, a 12M-instance speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for standardized evaluation. To validate our framework, we build and release LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public data. It achieves a normalized score of 0.72, establishing a strong, reproducible baseline that surpasses comparable models. Our analysis reveals that while broader training coverage enhances performance, significant generalization gaps persist on unseen tasks, particularly in pure audio scenarios. By releasing the complete stack of data, benchmarks, and models, LLaSO establishes a foundational open standard to unify research efforts and accelerate community-driven progress in LSLMs. We release the code, dataset, pretrained models, and results in https://github.com/EIT-NLP/LLaSO.

LLaSO: Un Framework Fondamentale per la Ricerca Riproducibile nei Modelli Linguistici e Vocali su Grande Scala

LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

Abstract

Support