Feuille de route vers une compréhension de la parole superhumaine en utilisant de grands modèles de langage.
Roadmap towards Superhuman Speech Understanding using Large Language Models
October 17, 2024
Auteurs: Fan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li
cs.AI
Résumé
Le succès des grands modèles de langage (GML) a incité à des efforts pour intégrer les données vocales et audio, dans le but de créer des modèles fondamentaux généraux capables de traiter à la fois des entrées textuelles et non textuelles. Les récentes avancées, telles que GPT-4o, mettent en lumière le potentiel des GML de parole de bout en bout, qui préservent les informations non sémantiques et les connaissances du monde pour une compréhension plus approfondie de la parole. Pour guider le développement des GML de parole, nous proposons une feuille de route en cinq niveaux, allant de la reconnaissance automatique de la parole (ASR) de base à des modèles surhumains avancés capables d'intégrer des informations non sémantiques avec des connaissances acoustiques abstraites pour des tâches complexes. De plus, nous concevons un banc d'essai, le Banc d'essai SAGI, qui normalise les aspects critiques à travers diverses tâches à ces cinq niveaux, mettant en lumière les défis liés à l'utilisation de connaissances acoustiques abstraites et à la complétude des capacités. Nos résultats révèlent des lacunes dans la gestion des indices paralinguistiques et des connaissances acoustiques abstraites, et nous proposons des orientations futures. Cet article décrit une feuille de route pour faire progresser les GML de parole, présente un banc d'essai pour l'évaluation, et offre des aperçus clés sur leurs limitations actuelles et leur potentiel.
English
The success of large language models (LLMs) has prompted efforts to integrate
speech and audio data, aiming to create general foundation models capable of
processing both textual and non-textual inputs. Recent advances, such as
GPT-4o, highlight the potential for end-to-end speech LLMs, which preserves
non-semantic information and world knowledge for deeper speech understanding.
To guide the development of speech LLMs, we propose a five-level roadmap,
ranging from basic automatic speech recognition (ASR) to advanced superhuman
models capable of integrating non-semantic information with abstract acoustic
knowledge for complex tasks. Moreover, we design a benchmark, SAGI Bechmark,
that standardizes critical aspects across various tasks in these five levels,
uncovering challenges in using abstract acoustic knowledge and completeness of
capability. Our findings reveal gaps in handling paralinguistic cues and
abstract acoustic knowledge, and we offer future directions. This paper
outlines a roadmap for advancing speech LLMs, introduces a benchmark for
evaluation, and provides key insights into their current limitations and
potential.Summary
AI-Generated Summary