LLaSO: 大規模言語・音声モデルにおける再現可能な研究のための基盤的枠組み
LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model
August 21, 2025
著者: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
cs.AI
要旨
大規模音声言語モデル(LSLM)の開発は、断片的なアーキテクチャと透明性の欠如により遅れており、研究の系統的な比較と再現性を妨げている。視覚言語分野とは異なり、LSLM分野では、モデルの重みを対応する学習データや設定なしに公開することが一般的である。これらの重要なギャップを解消するため、我々はLLaSOを導入する。LLaSOは、大規模音声言語モデリングのための初の完全にオープンなエンドツーエンドフレームワークである。LLaSOは、コミュニティに以下の3つの重要なリソースを提供する:(1)LLaSO-Align、1200万インスタンスの音声テキストアライメントコーパス;(2)LLaSO-Instruct、1350万インスタンスのマルチタスク指示チューニングデータセット;(3)LLaSO-Eval、標準化された評価のための再現可能なベンチマーク。我々のフレームワークを検証するため、公開データのみで学習された38億パラメータの参照モデルLLaSO-Baseを構築し、公開する。このモデルは0.72の正規化スコアを達成し、比較可能なモデルを上回る強力で再現可能なベースラインを確立した。我々の分析によれば、広範な学習カバレッジは性能を向上させるが、特に純粋な音声シナリオにおいて、未見のタスクに対する大きな一般化ギャップが残る。データ、ベンチマーク、モデルの完全なスタックを公開することで、LLaSOは研究努力を統合し、LSLMにおけるコミュニティ主導の進歩を加速するための基礎的なオープンスタンダードを確立する。コード、データセット、事前学習済みモデル、および結果をhttps://github.com/EIT-NLP/LLaSOで公開する。
English
The development of Large Speech-Language Models (LSLMs) has been slowed by
fragmented architectures and a lack of transparency, hindering the systematic
comparison and reproducibility of research. Unlike in the vision-language
domain, the LSLM field suffers from the common practice of releasing model
weights without their corresponding training data and configurations. To
address these critical gaps, we introduce LLaSO, the first fully open,
end-to-end framework for large-scale speech-language modeling. LLaSO provides
the community with three essential resources: (1) LLaSO-Align, a 12M-instance
speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task
instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for
standardized evaluation. To validate our framework, we build and release
LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public
data. It achieves a normalized score of 0.72, establishing a strong,
reproducible baseline that surpasses comparable models. Our analysis reveals
that while broader training coverage enhances performance, significant
generalization gaps persist on unseen tasks, particularly in pure audio
scenarios. By releasing the complete stack of data, benchmarks, and models,
LLaSO establishes a foundational open standard to unify research efforts and
accelerate community-driven progress in LSLMs. We release the code, dataset,
pretrained models, and results in https://github.com/EIT-NLP/LLaSO.