StressTest : VOTRE modèle de langage vocal peut-il gérer le stress ?
StressTest: Can YOUR Speech LM Handle the Stress?
May 28, 2025
Auteurs: Iddo Yosha, Gallil Maimon, Yossi Adi
cs.AI
Résumé
L'accentuation de phrase fait référence à l'emphase placée sur des mots spécifiques dans un énoncé oral pour mettre en évidence ou contraster une idée, ou pour introduire de nouvelles informations. Elle est souvent utilisée pour impliquer une intention sous-jacente qui n'est pas explicitement énoncée. Les récents progrès des modèles de langage sensibles à la parole (SLM) ont permis un traitement direct de l'audio, permettant aux modèles de contourner la transcription et d'accéder à la richesse complète du signal vocal, ainsi que d'exécuter des tâches de raisonnement audio telles que la réponse à des questions orales. Malgré le rôle crucial de l'accentuation de phrase dans la formation du sens et de l'intention du locuteur, elle reste largement négligée dans l'évaluation et le développement de ces modèles. Dans ce travail, nous comblons cette lacune en introduisant StressTest, un benchmark spécialement conçu pour évaluer la capacité d'un modèle à distinguer les interprétations de phrases orales en fonction du schéma d'accentuation. Nous évaluons les performances de plusieurs SLM leaders et constatons que, malgré leurs capacités globales, ils obtiennent de mauvais résultats sur de telles tâches. Pour surmonter cette limitation, nous proposons un nouveau pipeline de génération de données synthétiques et créons Stress17k, un ensemble d'entraînement qui simule le changement de sens impliqué par la variation d'accentuation. Ensuite, nous montrons empiriquement que l'optimisation des modèles avec cet ensemble de données synthétiques s'aligne bien avec les enregistrements réels et permet un ajustement fin efficace des SLM. Les résultats suggèrent que notre modèle ajusté, StresSLM, surpasse significativement les modèles existants sur les tâches de raisonnement et de détection de l'accentuation de phrase. Code, modèles, données et échantillons audio - pages.cs.huji.ac.il/adiyoss-lab/stresstest.
English
Sentence stress refers to emphasis, placed on specific words within a spoken
utterance to highlight or contrast an idea, or to introduce new information. It
is often used to imply an underlying intention that is not explicitly stated.
Recent advances in speech-aware language models (SLMs) have enabled direct
processing of audio, allowing models to bypass transcription and access the
full richness of the speech signal and perform audio reasoning tasks such as
spoken question answering. Despite the crucial role of sentence stress in
shaping meaning and speaker intent, it remains largely overlooked in evaluation
and development of such models. In this work, we address this gap by
introducing StressTest, a benchmark specifically designed to evaluate a model's
ability to distinguish between interpretations of spoken sentences based on the
stress pattern. We assess the performance of several leading SLMs and find
that, despite their overall capabilities, they perform poorly on such tasks. To
overcome this limitation, we propose a novel synthetic data generation
pipeline, and create Stress17k, a training set that simulates change of meaning
implied by stress variation. Then, we empirically show that optimizing models
with this synthetic dataset aligns well with real-world recordings and enables
effective finetuning of SLMs. Results suggest, that our finetuned model,
StresSLM, significantly outperforms existing models on both sentence stress
reasoning and detection tasks. Code, models, data, and audio samples -
pages.cs.huji.ac.il/adiyoss-lab/stresstest.