ChatPaper.aiChatPaper

Modelos de Linguagem de Grande Escala Conscientes de Áudio como Avaliadores de Estilos de Fala

Audio-Aware Large Language Models as Judges for Speaking Styles

June 6, 2025
Autores: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

Resumo

Modelos de linguagem de grande escala com consciência de áudio (ALLMs, do inglês *Audio-aware Large Language Models*) podem compreender informações textuais e não textuais presentes em entradas de áudio. Neste artigo, exploramos o uso de ALLMs como juízes automáticos para avaliar os estilos de fala em discursos. Utilizamos juízes ALLMs para avaliar os discursos gerados por modelos de linguagem falada (SLMs, do inglês *Spoken Language Models*) em duas tarefas: seguir instruções de estilo de voz e interpretação de papéis. O estilo de fala que consideramos inclui emoção, volume, ritmo de fala, ênfase nas palavras, controle de tom e elementos não verbais. Empregamos quatro modelos de linguagem falada (SLMs) para realizar as duas tarefas e utilizamos humanos e ALLMs para julgar as respostas dos SLMs. Comparamos dois juízes ALLMs, GPT-4o-audio e Gemini-2.5-pro, com os resultados da avaliação humana e mostramos que a concordância entre o Gemini e os juízes humanos é comparável à concordância entre avaliadores humanos. Esses resultados promissores demonstram que ALLMs podem ser usados como juízes para avaliar SLMs. Nossos resultados também revelam que os SLMs atuais, incluindo o GPT-4o-audio, ainda têm espaço para melhorias no controle do estilo de fala e na geração de diálogos naturais.
English
Audio-aware large language models (ALLMs) can understand the textual and non-textual information in the audio input. In this paper, we explore using ALLMs as an automatic judge to assess the speaking styles of speeches. We use ALLM judges to evaluate the speeches generated by SLMs on two tasks: voice style instruction following and role-playing. The speaking style we consider includes emotion, volume, speaking pace, word emphasis, pitch control, and non-verbal elements. We use four spoken language models (SLMs) to complete the two tasks and use humans and ALLMs to judge the SLMs' responses. We compare two ALLM judges, GPT-4o-audio and Gemini-2.5-pro, with human evaluation results and show that the agreement between Gemini and human judges is comparable to the agreement between human evaluators. These promising results show that ALLMs can be used as a judge to evaluate SLMs. Our results also reveal that current SLMs, even GPT-4o-audio, still have room for improvement in controlling the speaking style and generating natural dialogues.
PDF144June 9, 2025