Аудио-ориентированные большие языковые модели как судьи стилей речи
Audio-Aware Large Language Models as Judges for Speaking Styles
June 6, 2025
Авторы: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI
Аннотация
Аудио-ориентированные большие языковые модели (ALLM) способны понимать текстовую и нетекстовую информацию в аудиовходе. В данной работе мы исследуем использование ALLM в качестве автоматического судьи для оценки стилей произношения в речах. Мы применяем ALLM-судей для оценки речей, сгенерированных моделями разговорного языка (SLM), в двух задачах: следование инструкциям по стилю голоса и ролевое воспроизведение. Рассматриваемый стиль произношения включает эмоции, громкость, темп речи, акцентирование слов, управление высотой тона и невербальные элементы. Мы используем четыре модели разговорного языка (SLM) для выполнения этих задач и привлекаем людей и ALLM для оценки ответов SLM. Мы сравниваем двух ALLM-судей, GPT-4o-audio и Gemini-2.5-pro, с результатами человеческой оценки и показываем, что согласованность между Gemini и человеческими судьями сопоставима с согласованностью между самими человеческими оценщиками. Эти обнадеживающие результаты демонстрируют, что ALLM могут использоваться в качестве судей для оценки SLM. Наши результаты также показывают, что текущие SLM, включая GPT-4o-audio, все еще имеют потенциал для улучшения в управлении стилем произношения и генерации естественных диалогов.
English
Audio-aware large language models (ALLMs) can understand the textual and
non-textual information in the audio input. In this paper, we explore using
ALLMs as an automatic judge to assess the speaking styles of speeches. We use
ALLM judges to evaluate the speeches generated by SLMs on two tasks: voice
style instruction following and role-playing. The speaking style we consider
includes emotion, volume, speaking pace, word emphasis, pitch control, and
non-verbal elements. We use four spoken language models (SLMs) to complete the
two tasks and use humans and ALLMs to judge the SLMs' responses. We compare two
ALLM judges, GPT-4o-audio and Gemini-2.5-pro, with human evaluation results and
show that the agreement between Gemini and human judges is comparable to the
agreement between human evaluators. These promising results show that ALLMs can
be used as a judge to evaluate SLMs. Our results also reveal that current SLMs,
even GPT-4o-audio, still have room for improvement in controlling the speaking
style and generating natural dialogues.Summary
AI-Generated Summary