LLaSO: Основополагающая структура для воспроизводимых исследований в области крупномасштабных языковых и речевых моделей
LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
August 21, 2025
Авторы: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
cs.AI
Аннотация
Разработка крупных рече-языковых моделей (Large Speech-Language Models, LSLMs) замедляется из-за фрагментированных архитектур и отсутствия прозрачности, что затрудняет систематическое сравнение и воспроизводимость исследований. В отличие от области визуально-языковых моделей, в сфере LSLM распространена практика выпуска весов моделей без соответствующих обучающих данных и конфигураций. Для устранения этих критических пробелов мы представляем LLaSO — первую полностью открытую сквозную платформу для крупномасштабного моделирования рече-языковых данных. LLaSO предоставляет сообществу три ключевых ресурса: (1) LLaSO-Align, корпус из 12 миллионов примеров выравнивания речи и текста; (2) LLaSO-Instruct, набор данных для многозадачной тонкой настройки инструкций, содержащий 13,5 миллионов примеров; и (3) LLaSO-Eval, воспроизводимый бенчмарк для стандартизированной оценки. Для проверки нашей платформы мы создали и выпустили LLaSO-Base, эталонную модель с 3,8 миллиардами параметров, обученную исключительно на наших открытых данных. Она достигает нормализованного показателя 0,72, устанавливая сильный воспроизводимый базовый уровень, превосходящий сопоставимые модели. Наш анализ показывает, что, хотя более широкий охват обучения улучшает производительность, значительные пробелы в обобщении сохраняются на неизвестных задачах, особенно в сценариях с чисто аудиоданными. Выпуская полный стек данных, бенчмарков и моделей, LLaSO устанавливает фундаментальный открытый стандарт для объединения исследовательских усилий и ускорения прогресса в области LSLM, движимого сообществом. Мы публикуем код, наборы данных, предобученные модели и результаты на https://github.com/EIT-NLP/LLaSO.
English
The development of Large Speech-Language Models (LSLMs) has been slowed by
fragmented architectures and a lack of transparency, hindering the systematic
comparison and reproducibility of research. Unlike in the vision-language
domain, the LSLM field suffers from the common practice of releasing model
weights without their corresponding training data and configurations. To
address these critical gaps, we introduce LLaSO, the first fully open,
end-to-end framework for large-scale speech-language modeling. LLaSO provides
the community with three essential resources: (1) LLaSO-Align, a 12M-instance
speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task
instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for
standardized evaluation. To validate our framework, we build and release
LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public
data. It achieves a normalized score of 0.72, establishing a strong,
reproducible baseline that surpasses comparable models. Our analysis reveals
that while broader training coverage enhances performance, significant
generalization gaps persist on unseen tasks, particularly in pure audio
scenarios. By releasing the complete stack of data, benchmarks, and models,
LLaSO establishes a foundational open standard to unify research efforts and
accelerate community-driven progress in LSLMs. We release the code, dataset,
pretrained models, and results in https://github.com/EIT-NLP/LLaSO.