ChatPaper.aiChatPaper

LLaSO: Um Framework Fundamental para Pesquisa Reprodutível em Modelos de Linguagem e Fala em Grande Escala

LLaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model

August 21, 2025
Autores: Yirong Sun, Yizhong Geng, Peidong Wei, Yanjun Chen, Jinghan Yang, Rongfei Chen, Wei Zhang, Xiaoyu Shen
cs.AI

Resumo

O desenvolvimento de Modelos de Linguagem de Fala em Grande Escala (LSLMs, na sigla em inglês) tem sido prejudicado por arquiteturas fragmentadas e pela falta de transparência, dificultando a comparação sistemática e a reprodutibilidade das pesquisas. Diferentemente do domínio de visão e linguagem, o campo dos LSLMs sofre com a prática comum de liberar os pesos dos modelos sem seus dados de treinamento e configurações correspondentes. Para abordar essas lacunas críticas, apresentamos o LLaSO, o primeiro framework totalmente aberto e de ponta a ponta para modelagem de linguagem de fala em grande escala. O LLaSO fornece à comunidade três recursos essenciais: (1) LLaSO-Align, um corpus de alinhamento fala-texto com 12 milhões de instâncias; (2) LLaSO-Instruct, um conjunto de dados de ajuste fino multi-tarefa com 13,5 milhões de instâncias; e (3) LLaSO-Eval, um benchmark reproduzível para avaliação padronizada. Para validar nosso framework, construímos e liberamos o LLaSO-Base, um modelo de referência com 3,8 bilhões de parâmetros treinado exclusivamente com nossos dados públicos. Ele alcança uma pontuação normalizada de 0,72, estabelecendo uma linha de base forte e reproduzível que supera modelos comparáveis. Nossa análise revela que, embora uma cobertura de treinamento mais ampla melhore o desempenho, lacunas significativas de generalização persistem em tarefas não vistas, especialmente em cenários de áudio puro. Ao liberar a pilha completa de dados, benchmarks e modelos, o LLaSO estabelece um padrão aberto fundamental para unificar esforços de pesquisa e acelerar o progresso impulsionado pela comunidade em LSLMs. Liberamos o código, conjunto de dados, modelos pré-treinados e resultados em https://github.com/EIT-NLP/LLaSO.
English
The development of Large Speech-Language Models (LSLMs) has been slowed by fragmented architectures and a lack of transparency, hindering the systematic comparison and reproducibility of research. Unlike in the vision-language domain, the LSLM field suffers from the common practice of releasing model weights without their corresponding training data and configurations. To address these critical gaps, we introduce LLaSO, the first fully open, end-to-end framework for large-scale speech-language modeling. LLaSO provides the community with three essential resources: (1) LLaSO-Align, a 12M-instance speech-text alignment corpus; (2) LLaSO-Instruct, a 13.5M-instance multi-task instruction-tuning dataset; and (3) LLaSO-Eval, a reproducible benchmark for standardized evaluation. To validate our framework, we build and release LLaSO-Base, a 3.8B-parameter reference model trained exclusively on our public data. It achieves a normalized score of 0.72, establishing a strong, reproducible baseline that surpasses comparable models. Our analysis reveals that while broader training coverage enhances performance, significant generalization gaps persist on unseen tasks, particularly in pure audio scenarios. By releasing the complete stack of data, benchmarks, and models, LLaSO establishes a foundational open standard to unify research efforts and accelerate community-driven progress in LSLMs. We release the code, dataset, pretrained models, and results in https://github.com/EIT-NLP/LLaSO.
PDF42August 22, 2025