ChatPaper.aiChatPaper

StressTest: Kann IHR Sprachmodell dem Stress standhalten?

StressTest: Can YOUR Speech LM Handle the Stress?

May 28, 2025
Autoren: Iddo Yosha, Gallil Maimon, Yossi Adi
cs.AI

Zusammenfassung

Satzbetonung bezieht sich auf die Hervorhebung bestimmter Wörter innerhalb einer gesprochenen Äußerung, um eine Idee zu betonen oder zu kontrastieren oder um neue Informationen einzuführen. Sie wird oft verwendet, um eine zugrunde liegende Absicht zu implizieren, die nicht explizit ausgedrückt wird. Jüngste Fortschritte bei sprachbewussten Sprachmodellen (Speech-aware Language Models, SLMs) haben die direkte Verarbeitung von Audiodaten ermöglicht, wodurch Modelle die Transkription umgehen und die volle Bandbreite des Sprachsignals nutzen können, um Aufgaben wie gesprochene Fragebeantwortung durchzuführen. Trotz der entscheidenden Rolle der Satzbetonung bei der Gestaltung von Bedeutung und Sprecherabsicht wird sie bei der Bewertung und Entwicklung solcher Modelle weitgehend übersehen. In dieser Arbeit schließen wir diese Lücke, indem wir StressTest vorstellen, einen speziell entwickelten Benchmark, der die Fähigkeit eines Modells bewertet, zwischen Interpretationen gesprochener Sätze basierend auf dem Betonungsmuster zu unterscheiden. Wir bewerten die Leistung mehrerer führender SLMs und stellen fest, dass sie trotz ihrer allgemeinen Fähigkeiten bei solchen Aufgaben schlecht abschneiden. Um diese Einschränkung zu überwinden, schlagen wir eine neuartige Pipeline zur synthetischen Datengenerierung vor und erstellen Stress17k, einen Trainingsdatensatz, der die durch Betonungsvariation implizierte Bedeutungsänderung simuliert. Anschließend zeigen wir empirisch, dass die Optimierung von Modellen mit diesem synthetischen Datensatz gut mit realen Aufnahmen übereinstimmt und eine effektive Feinabstimmung von SLMs ermöglicht. Die Ergebnisse deuten darauf hin, dass unser feinabgestimmtes Modell, StresSLM, bestehende Modelle sowohl bei der Satzbetonungslogik als auch bei der Erkennungsaufgabe deutlich übertrifft. Code, Modelle, Daten und Audio-Beispiele finden Sie unter: pages.cs.huji.ac.il/adiyoss-lab/stresstest.
English
Sentence stress refers to emphasis, placed on specific words within a spoken utterance to highlight or contrast an idea, or to introduce new information. It is often used to imply an underlying intention that is not explicitly stated. Recent advances in speech-aware language models (SLMs) have enabled direct processing of audio, allowing models to bypass transcription and access the full richness of the speech signal and perform audio reasoning tasks such as spoken question answering. Despite the crucial role of sentence stress in shaping meaning and speaker intent, it remains largely overlooked in evaluation and development of such models. In this work, we address this gap by introducing StressTest, a benchmark specifically designed to evaluate a model's ability to distinguish between interpretations of spoken sentences based on the stress pattern. We assess the performance of several leading SLMs and find that, despite their overall capabilities, they perform poorly on such tasks. To overcome this limitation, we propose a novel synthetic data generation pipeline, and create Stress17k, a training set that simulates change of meaning implied by stress variation. Then, we empirically show that optimizing models with this synthetic dataset aligns well with real-world recordings and enables effective finetuning of SLMs. Results suggest, that our finetuned model, StresSLM, significantly outperforms existing models on both sentence stress reasoning and detection tasks. Code, models, data, and audio samples - pages.cs.huji.ac.il/adiyoss-lab/stresstest.
PDF172May 30, 2025