LLaSO: Un Marco Fundamental para la Investigación Reproducible en Modelos de Lenguaje y Habla a Gran Escala
LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
August 21, 2025
Autores: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
cs.AI
Resumen
El desarrollo de los Modelos de Lenguaje-Habla a Gran Escala (LSLMs, por sus siglas en inglés) se ha visto ralentizado por arquitecturas fragmentadas y una falta de transparencia, lo que dificulta la comparación sistemática y la reproducibilidad de la investigación. A diferencia del dominio de visión-lenguaje, el campo de los LSLMs sufre de la práctica común de liberar los pesos de los modelos sin sus datos de entrenamiento y configuraciones correspondientes. Para abordar estas brechas críticas, presentamos LLaSO, el primer marco completamente abierto y de extremo a extremo para el modelado de lenguaje-habla a gran escala. LLaSO proporciona a la comunidad tres recursos esenciales: (1) LLaSO-Align, un corpus de alineación de habla-texto con 12 millones de instancias; (2) LLaSO-Instruct, un conjunto de datos de ajuste por instrucciones multitarea con 13.5 millones de instancias; y (3) LLaSO-Eval, un punto de referencia reproducible para la evaluación estandarizada. Para validar nuestro marco, construimos y liberamos LLaSO-Base, un modelo de referencia con 3.8 mil millones de parámetros entrenado exclusivamente con nuestros datos públicos. Este alcanza una puntuación normalizada de 0.72, estableciendo una línea base sólida y reproducible que supera a modelos comparables. Nuestro análisis revela que, aunque una cobertura más amplia del entrenamiento mejora el rendimiento, persisten brechas significativas de generalización en tareas no vistas, particularmente en escenarios de audio puro. Al liberar la pila completa de datos, puntos de referencia y modelos, LLaSO establece un estándar abierto fundamental para unificar los esfuerzos de investigación y acelerar el progreso impulsado por la comunidad en los LSLMs. Liberamos el código, el conjunto de datos, los modelos preentrenados y los resultados en https://github.com/EIT-NLP/LLaSO.
English
The development of Large Speech-Language Models (LSLMs) has been slowed by
fragmented architectures and a lack of transparency, hindering the systematic
comparison and reproducibility of research. Unlike in the vision-language
domain, the LSLM field suffers from the common practice of releasing model
weights without their corresponding training data and configurations. To
address these critical gaps, we introduce LLaSO, the first fully open,
end-to-end framework for large-scale speech-language modeling. LLaSO provides
the community with three essential resources: (1) LLaSO-Align, a 12M-instance
speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task
instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for
standardized evaluation. To validate our framework, we build and release
LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public
data. It achieves a normalized score of 0.72, establishing a strong,
reproducible baseline that surpasses comparable models. Our analysis reveals
that while broader training coverage enhances performance, significant
generalization gaps persist on unseen tasks, particularly in pure audio
scenarios. By releasing the complete stack of data, benchmarks, and models,
LLaSO establishes a foundational open standard to unify research efforts and
accelerate community-driven progress in LSLMs. We release the code, dataset,
pretrained models, and results in https://github.com/EIT-NLP/LLaSO.