План действий по достижению сверхчеловеческого понимания речи с использованием больших языковых моделей
Roadmap towards Superhuman Speech Understanding using Large Language Models
October 17, 2024
Авторы: Fan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li
cs.AI
Аннотация
Успех крупных языковых моделей (KYM) побудил усилия по интеграции речевых и аудио данных с целью создания общих базовых моделей, способных обрабатывать как текстовые, так и нетекстовые входные данные. Недавние достижения, такие как GPT-4o, подчеркивают потенциал для конечных речевых KYM, сохраняющих несемантическую информацию и мировые знания для более глубокого понимания речи. Для направления развития речевых KYM мы предлагаем пятиуровневую дорожную карту, начиная от базового автоматического распознавания речи (ASR) до продвинутых сверхчеловеческих моделей, способных интегрировать несемантическую информацию с абстрактными акустическими знаниями для выполнения сложных задач. Более того, мы разрабатываем бенчмарк, SAGI Bechmark, который стандартизирует критические аспекты на разных уровнях в этих пяти уровнях, выявляя проблемы в использовании абстрактных акустических знаний и полноте возможностей. Наши результаты показывают пробелы в обработке паралингвистических подсказок и абстрактных акустических знаний, и мы предлагаем направления для будущих исследований. В данной статье изложена дорожная карта для продвижения речевых KYM, представлен бенчмарк для оценки и предоставлены ключевые идеи о их текущих ограничениях и потенциале.
English
The success of large language models (LLMs) has prompted efforts to integrate
speech and audio data, aiming to create general foundation models capable of
processing both textual and non-textual inputs. Recent advances, such as
GPT-4o, highlight the potential for end-to-end speech LLMs, which preserves
non-semantic information and world knowledge for deeper speech understanding.
To guide the development of speech LLMs, we propose a five-level roadmap,
ranging from basic automatic speech recognition (ASR) to advanced superhuman
models capable of integrating non-semantic information with abstract acoustic
knowledge for complex tasks. Moreover, we design a benchmark, SAGI Bechmark,
that standardizes critical aspects across various tasks in these five levels,
uncovering challenges in using abstract acoustic knowledge and completeness of
capability. Our findings reveal gaps in handling paralinguistic cues and
abstract acoustic knowledge, and we offer future directions. This paper
outlines a roadmap for advancing speech LLMs, introduces a benchmark for
evaluation, and provides key insights into their current limitations and
potential.Summary
AI-Generated Summary