Modèles de langage à grande échelle sensibles à l'audio comme évaluateurs des styles d'expression orale
Audio-Aware Large Language Models as Judges for Speaking Styles
June 6, 2025
Auteurs: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI
Résumé
Les modèles de langage de grande taille conscients de l'audio (ALLMs) peuvent comprendre les informations textuelles et non textuelles contenues dans les entrées audio. Dans cet article, nous explorons l'utilisation des ALLMs comme juges automatiques pour évaluer les styles d'élocution des discours. Nous utilisons des juges ALLMs pour évaluer les discours générés par des modèles de langage parlés (SLMs) sur deux tâches : le suivi d'instructions de style vocal et le jeu de rôle. Le style d'élocution que nous considérons inclut l'émotion, le volume, le rythme de parole, l'accentuation des mots, le contrôle de la hauteur et les éléments non verbaux. Nous utilisons quatre modèles de langage parlés (SLMs) pour accomplir ces deux tâches et faisons appel à des humains et à des ALLMs pour juger les réponses des SLMs. Nous comparons deux juges ALLMs, GPT-4o-audio et Gemini-2.5-pro, avec les résultats d'évaluation humaine et montrons que l'accord entre Gemini et les juges humains est comparable à l'accord entre évaluateurs humains. Ces résultats prometteurs montrent que les ALLMs peuvent être utilisés comme juges pour évaluer les SLMs. Nos résultats révèlent également que les SLMs actuels, y compris GPT-4o-audio, ont encore des marges d'amélioration dans le contrôle du style d'élocution et la génération de dialogues naturels.
English
Audio-aware large language models (ALLMs) can understand the textual and
non-textual information in the audio input. In this paper, we explore using
ALLMs as an automatic judge to assess the speaking styles of speeches. We use
ALLM judges to evaluate the speeches generated by SLMs on two tasks: voice
style instruction following and role-playing. The speaking style we consider
includes emotion, volume, speaking pace, word emphasis, pitch control, and
non-verbal elements. We use four spoken language models (SLMs) to complete the
two tasks and use humans and ALLMs to judge the SLMs' responses. We compare two
ALLM judges, GPT-4o-audio and Gemini-2.5-pro, with human evaluation results and
show that the agreement between Gemini and human judges is comparable to the
agreement between human evaluators. These promising results show that ALLMs can
be used as a judge to evaluate SLMs. Our results also reveal that current SLMs,
even GPT-4o-audio, still have room for improvement in controlling the speaking
style and generating natural dialogues.Summary
AI-Generated Summary