ChatPaper.aiChatPaper

Audio-bewusste Large Language Models als Bewerter für Sprechstile

Audio-Aware Large Language Models as Judges for Speaking Styles

June 6, 2025
Autoren: Cheng-Han Chiang, Xiaofei Wang, Chung-Ching Lin, Kevin Lin, Linjie Li, Radu Kopetz, Yao Qian, Zhendong Wang, Zhengyuan Yang, Hung-yi Lee, Lijuan Wang
cs.AI

Zusammenfassung

Audio-aware Large Language Models (ALLMs) können sowohl die textuellen als auch die nicht-textuellen Informationen in Audioeingaben verstehen. In diesem Artikel untersuchen wir den Einsatz von ALLMs als automatische Bewertungssysteme zur Beurteilung von Sprechstilen in Reden. Wir verwenden ALLM-Bewerter, um die von Spoken Language Models (SLMs) generierten Reden in zwei Aufgaben zu bewerten: die Befolgung von Stilanweisungen für die Stimme und das Rollenspiel. Der Sprechstil, den wir betrachten, umfasst Emotion, Lautstärke, Sprechtempo, Wortbetonung, Tonhöhenkontrolle und nonverbale Elemente. Wir setzen vier Spoken Language Models (SLMs) ein, um die beiden Aufgaben zu erfüllen, und lassen sowohl Menschen als auch ALLMs die Antworten der SLMs bewerten. Wir vergleichen zwei ALLM-Bewerter, GPT-4o-audio und Gemini-2.5-pro, mit den Ergebnissen menschlicher Bewertungen und zeigen, dass die Übereinstimmung zwischen Gemini und menschlichen Bewertern vergleichbar ist mit der Übereinstimmung zwischen menschlichen Bewertern. Diese vielversprechenden Ergebnisse zeigen, dass ALLMs als Bewerter zur Evaluierung von SLMs eingesetzt werden können. Unsere Ergebnisse verdeutlichen auch, dass aktuelle SLMs, selbst GPT-4o-audio, noch Verbesserungspotenzial in der Kontrolle des Sprechstils und der Erzeugung natürlicher Dialoge haben.
English
Audio-aware large language models (ALLMs) can understand the textual and non-textual information in the audio input. In this paper, we explore using ALLMs as an automatic judge to assess the speaking styles of speeches. We use ALLM judges to evaluate the speeches generated by SLMs on two tasks: voice style instruction following and role-playing. The speaking style we consider includes emotion, volume, speaking pace, word emphasis, pitch control, and non-verbal elements. We use four spoken language models (SLMs) to complete the two tasks and use humans and ALLMs to judge the SLMs' responses. We compare two ALLM judges, GPT-4o-audio and Gemini-2.5-pro, with human evaluation results and show that the agreement between Gemini and human judges is comparable to the agreement between human evaluators. These promising results show that ALLMs can be used as a judge to evaluate SLMs. Our results also reveal that current SLMs, even GPT-4o-audio, still have room for improvement in controlling the speaking style and generating natural dialogues.

Summary

AI-Generated Summary

PDF143June 9, 2025