Modelos de Lenguaje de Gran Escala Conscientes del Audio como Evaluadores de Estilos de Habla
Audio-Aware Large Language Models as Judges for Speaking Styles
June 6, 2025
Autores: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI
Resumen
Los modelos de lenguaje de gran escala con capacidad auditiva (ALLMs, por sus siglas en inglés) pueden comprender la información textual y no textual presente en una entrada de audio. En este artículo, exploramos el uso de ALLMs como jueces automáticos para evaluar los estilos de habla en discursos. Utilizamos jueces ALLM para evaluar los discursos generados por modelos de lenguaje hablado (SLMs) en dos tareas: seguimiento de instrucciones de estilo vocal y juego de roles. El estilo de habla que consideramos incluye emoción, volumen, ritmo del habla, énfasis en palabras, control del tono y elementos no verbales. Empleamos cuatro modelos de lenguaje hablado (SLMs) para completar las dos tareas y utilizamos tanto a humanos como a ALLMs para juzgar las respuestas de los SLMs. Comparamos dos jueces ALLM, GPT-4o-audio y Gemini-2.5-pro, con los resultados de evaluación humana y demostramos que la concordancia entre Gemini y los jueces humanos es comparable a la concordancia entre evaluadores humanos. Estos resultados prometedores muestran que los ALLMs pueden utilizarse como jueces para evaluar SLMs. Nuestros hallazgos también revelan que los SLMs actuales, incluso GPT-4o-audio, aún tienen margen de mejora en el control del estilo de habla y la generación de diálogos naturales.
English
Audio-aware large language models (ALLMs) can understand the textual and
non-textual information in the audio input. In this paper, we explore using
ALLMs as an automatic judge to assess the speaking styles of speeches. We use
ALLM judges to evaluate the speeches generated by SLMs on two tasks: voice
style instruction following and role-playing. The speaking style we consider
includes emotion, volume, speaking pace, word emphasis, pitch control, and
non-verbal elements. We use four spoken language models (SLMs) to complete the
two tasks and use humans and ALLMs to judge the SLMs' responses. We compare two
ALLM judges, GPT-4o-audio and Gemini-2.5-pro, with human evaluation results and
show that the agreement between Gemini and human judges is comparable to the
agreement between human evaluators. These promising results show that ALLMs can
be used as a judge to evaluate SLMs. Our results also reveal that current SLMs,
even GPT-4o-audio, still have room for improvement in controlling the speaking
style and generating natural dialogues.