ChatPaper.aiChatPaper

Audio-Bewuste Grote Taalmodellen als Beoordelaars voor Spreekstijlen

Audio-Aware Large Language Models as Judges for Speaking Styles

June 6, 2025
Auteurs: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

Samenvatting

Audio-aware grote taalmodellen (ALLMs) kunnen de tekstuele en niet-tekstuele informatie in audio-invoer begrijpen. In dit artikel onderzoeken we het gebruik van ALLMs als automatische beoordelaar om de spreekstijlen van toespraken te beoordelen. We gebruiken ALLM-beoordelaars om de toespraken te evalueren die door SLMs zijn gegenereerd voor twee taken: het volgen van stemstijlinstructies en rollenspel. De spreekstijl die we beschouwen omvat emotie, volume, spreektempo, woordnadruk, toonhoogtebeheersing en non-verbale elementen. We gebruiken vier gesproken taalmodellen (SLMs) om de twee taken uit te voeren en laten zowel mensen als ALLMs de reacties van de SLMs beoordelen. We vergelijken twee ALLM-beoordelaars, GPT-4o-audio en Gemini-2.5-pro, met de resultaten van menselijke evaluaties en laten zien dat de overeenstemming tussen Gemini en menselijke beoordelaars vergelijkbaar is met de overeenstemming tussen menselijke evaluatoren. Deze veelbelovende resultaten tonen aan dat ALLMs kunnen worden gebruikt als beoordelaar om SLMs te evalueren. Onze resultaten laten ook zien dat huidige SLMs, zelfs GPT-4o-audio, nog ruimte voor verbetering hebben in het beheersen van de spreekstijl en het genereren van natuurlijke dialogen.
English
Audio-aware large language models (ALLMs) can understand the textual and non-textual information in the audio input. In this paper, we explore using ALLMs as an automatic judge to assess the speaking styles of speeches. We use ALLM judges to evaluate the speeches generated by SLMs on two tasks: voice style instruction following and role-playing. The speaking style we consider includes emotion, volume, speaking pace, word emphasis, pitch control, and non-verbal elements. We use four spoken language models (SLMs) to complete the two tasks and use humans and ALLMs to judge the SLMs' responses. We compare two ALLM judges, GPT-4o-audio and Gemini-2.5-pro, with human evaluation results and show that the agreement between Gemini and human judges is comparable to the agreement between human evaluators. These promising results show that ALLMs can be used as a judge to evaluate SLMs. Our results also reveal that current SLMs, even GPT-4o-audio, still have room for improvement in controlling the speaking style and generating natural dialogues.
PDF144June 9, 2025