ChatPaper.aiChatPaper

Modelli Linguistici di Grande Dimensione Consapevoli dell'Audio come Giudici degli Stili di Parlato

Audio-Aware Large Language Models as Judges for Speaking Styles

June 6, 2025
Autori: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

Abstract

I modelli linguistici di grandi dimensioni con consapevolezza audio (ALLM) sono in grado di comprendere le informazioni testuali e non testuali presenti negli input audio. In questo articolo, esploriamo l'utilizzo degli ALLM come giudici automatici per valutare gli stili di eloquio nei discorsi. Utilizziamo giudici ALLM per valutare i discorsi generati da modelli linguistici parlati (SLM) in due compiti: il seguire istruzioni sullo stile vocale e il role-playing. Lo stile di eloquio che consideriamo include emozione, volume, ritmo del parlato, enfasi sulle parole, controllo del tono e elementi non verbali. Utilizziamo quattro modelli linguistici parlati (SLM) per completare i due compiti e impieghiamo sia valutatori umani che ALLM per giudicare le risposte degli SLM. Confrontiamo due giudici ALLM, GPT-4o-audio e Gemini-2.5-pro, con i risultati delle valutazioni umane e dimostriamo che l'accordo tra Gemini e i giudici umani è paragonabile all'accordo tra valutatori umani. Questi risultati promettenti mostrano che gli ALLM possono essere utilizzati come giudici per valutare gli SLM. I nostri risultati rivelano inoltre che gli SLM attuali, persino GPT-4o-audio, hanno ancora margine di miglioramento nel controllo dello stile di eloquio e nella generazione di dialoghi naturali.
English
Audio-aware large language models (ALLMs) can understand the textual and non-textual information in the audio input. In this paper, we explore using ALLMs as an automatic judge to assess the speaking styles of speeches. We use ALLM judges to evaluate the speeches generated by SLMs on two tasks: voice style instruction following and role-playing. The speaking style we consider includes emotion, volume, speaking pace, word emphasis, pitch control, and non-verbal elements. We use four spoken language models (SLMs) to complete the two tasks and use humans and ALLMs to judge the SLMs' responses. We compare two ALLM judges, GPT-4o-audio and Gemini-2.5-pro, with human evaluation results and show that the agreement between Gemini and human judges is comparable to the agreement between human evaluators. These promising results show that ALLMs can be used as a judge to evaluate SLMs. Our results also reveal that current SLMs, even GPT-4o-audio, still have room for improvement in controlling the speaking style and generating natural dialogues.
PDF154June 9, 2025