Percorso verso la Comprensione del Linguaggio Orale Superumano utilizzando Modelli Linguistici di Grandi Dimensioni

Abstract

Il successo dei grandi modelli linguistici (LLM) ha spinto a sforzi per integrare dati vocali e audio, con l'obiettivo di creare modelli fondamentali generali capaci di elaborare sia input testuali che non testuali. Gli avanzamenti recenti, come il GPT-4o, mettono in evidenza il potenziale per modelli vocali LLM end-to-end, che conservano informazioni non semantiche e conoscenze del mondo per una comprensione più approfondita del linguaggio parlato. Per guidare lo sviluppo dei modelli vocali LLM, proponiamo una roadmap a cinque livelli, che va dall'elaborazione automatica di riconoscimento vocale (ASR) a modelli superumani avanzati capaci di integrare informazioni non semantiche con conoscenze acustiche astratte per compiti complessi. Inoltre, progettiamo un benchmark, il Benchmark SAGI, che standardizza aspetti critici tra vari compiti in questi cinque livelli, mettendo in luce le sfide nell'uso di conoscenze acustiche astratte e nella completezza delle capacità. Le nostre scoperte rivelano lacune nel gestire segnali paralinguistici e conoscenze acustiche astratte, e offriamo indicazioni per future direzioni. Questo articolo delinea una roadmap per far progredire i modelli vocali LLM, introduce un benchmark per la valutazione e fornisce importanti approfondimenti sulle attuali limitazioni e potenzialità di tali modelli.

English

The success of large language models (LLMs) has prompted efforts to integrate speech and audio data, aiming to create general foundation models capable of processing both textual and non-textual inputs. Recent advances, such as GPT-4o, highlight the potential for end-to-end speech LLMs, which preserves non-semantic information and world knowledge for deeper speech understanding. To guide the development of speech LLMs, we propose a five-level roadmap, ranging from basic automatic speech recognition (ASR) to advanced superhuman models capable of integrating non-semantic information with abstract acoustic knowledge for complex tasks. Moreover, we design a benchmark, SAGI Bechmark, that standardizes critical aspects across various tasks in these five levels, uncovering challenges in using abstract acoustic knowledge and completeness of capability. Our findings reveal gaps in handling paralinguistic cues and abstract acoustic knowledge, and we offer future directions. This paper outlines a roadmap for advancing speech LLMs, introduces a benchmark for evaluation, and provides key insights into their current limitations and potential.

Percorso verso la Comprensione del Linguaggio Orale Superumano utilizzando Modelli Linguistici di Grandi Dimensioni

Roadmap towards Superhuman Speech Understanding using Large Language Models

Abstract

Summary

Support

Support