Fahrplan für die Erreichung einer übermenschlichen Sprachverständnisfähigkeit mithilfe großer Sprachmodelle
Roadmap towards Superhuman Speech Understanding using Large Language Models
October 17, 2024
Autoren: Fan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li
cs.AI
Zusammenfassung
Der Erfolg großer Sprachmodelle (LLMs) hat Bemühungen ausgelöst, Sprach- und Audio-Daten zu integrieren, um allgemeine Grundlagenmodelle zu schaffen, die in der Lage sind, sowohl textuelle als auch nicht-textuelle Eingaben zu verarbeiten. Aktuelle Fortschritte, wie z.B. GPT-4o, heben das Potenzial für end-to-end Sprach-LLMs hervor, die nicht-semantische Informationen und Weltwissen für ein tieferes Verständnis von Sprache bewahren. Um die Entwicklung von Sprach-LLMs zu lenken, schlagen wir einen Fünf-Stufen-Fahrplan vor, der von grundlegender automatischer Spracherkennung (ASR) bis hin zu fortschrittlichen übermenschlichen Modellen reicht, die in der Lage sind, nicht-semantische Informationen mit abstraktem akustischem Wissen für komplexe Aufgaben zu integrieren. Darüber hinaus entwerfen wir einen Benchmark, das SAGI-Bechmark, das kritische Aspekte über verschiedene Aufgaben in diesen fünf Stufen standardisiert und Herausforderungen bei der Verwendung von abstraktem akustischem Wissen und Vollständigkeit der Fähigkeit aufdeckt. Unsere Ergebnisse zeigen Lücken bei der Behandlung von paralinguistischen Hinweisen und abstraktem akustischem Wissen auf, und wir bieten zukünftige Richtungen an. Dieses Papier skizziert einen Fahrplan zur Weiterentwicklung von Sprach-LLMs, führt einen Benchmark zur Evaluation ein und liefert wichtige Erkenntnisse zu ihren aktuellen Einschränkungen und Potenzialen.
English
The success of large language models (LLMs) has prompted efforts to integrate
speech and audio data, aiming to create general foundation models capable of
processing both textual and non-textual inputs. Recent advances, such as
GPT-4o, highlight the potential for end-to-end speech LLMs, which preserves
non-semantic information and world knowledge for deeper speech understanding.
To guide the development of speech LLMs, we propose a five-level roadmap,
ranging from basic automatic speech recognition (ASR) to advanced superhuman
models capable of integrating non-semantic information with abstract acoustic
knowledge for complex tasks. Moreover, we design a benchmark, SAGI Bechmark,
that standardizes critical aspects across various tasks in these five levels,
uncovering challenges in using abstract acoustic knowledge and completeness of
capability. Our findings reveal gaps in handling paralinguistic cues and
abstract acoustic knowledge, and we offer future directions. This paper
outlines a roadmap for advancing speech LLMs, introduces a benchmark for
evaluation, and provides key insights into their current limitations and
potential.