ChatPaper.aiChatPaper

План действий по достижению сверхчеловеческого понимания речи с использованием больших языковых моделей

Roadmap towards Superhuman Speech Understanding using Large Language Models

October 17, 2024
Авторы: Fan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li
cs.AI

Аннотация

Успех крупных языковых моделей (KYM) побудил усилия по интеграции речевых и аудио данных с целью создания общих базовых моделей, способных обрабатывать как текстовые, так и нетекстовые входные данные. Недавние достижения, такие как GPT-4o, подчеркивают потенциал для конечных речевых KYM, сохраняющих несемантическую информацию и мировые знания для более глубокого понимания речи. Для направления развития речевых KYM мы предлагаем пятиуровневую дорожную карту, начиная от базового автоматического распознавания речи (ASR) до продвинутых сверхчеловеческих моделей, способных интегрировать несемантическую информацию с абстрактными акустическими знаниями для выполнения сложных задач. Более того, мы разрабатываем бенчмарк, SAGI Bechmark, который стандартизирует критические аспекты на разных уровнях в этих пяти уровнях, выявляя проблемы в использовании абстрактных акустических знаний и полноте возможностей. Наши результаты показывают пробелы в обработке паралингвистических подсказок и абстрактных акустических знаний, и мы предлагаем направления для будущих исследований. В данной статье изложена дорожная карта для продвижения речевых KYM, представлен бенчмарк для оценки и предоставлены ключевые идеи о их текущих ограничениях и потенциале.
English
The success of large language models (LLMs) has prompted efforts to integrate speech and audio data, aiming to create general foundation models capable of processing both textual and non-textual inputs. Recent advances, such as GPT-4o, highlight the potential for end-to-end speech LLMs, which preserves non-semantic information and world knowledge for deeper speech understanding. To guide the development of speech LLMs, we propose a five-level roadmap, ranging from basic automatic speech recognition (ASR) to advanced superhuman models capable of integrating non-semantic information with abstract acoustic knowledge for complex tasks. Moreover, we design a benchmark, SAGI Bechmark, that standardizes critical aspects across various tasks in these five levels, uncovering challenges in using abstract acoustic knowledge and completeness of capability. Our findings reveal gaps in handling paralinguistic cues and abstract acoustic knowledge, and we offer future directions. This paper outlines a roadmap for advancing speech LLMs, introduces a benchmark for evaluation, and provides key insights into their current limitations and potential.

Summary

AI-Generated Summary

PDF352November 16, 2024