StressTest: Kan JOUW Taalmodel Omgaan met de Stress?
StressTest: Can YOUR Speech LM Handle the Stress?
May 28, 2025
Auteurs: Iddo Yosha, Gallil Maimon, Yossi Adi
cs.AI
Samenvatting
Zinsaccent verwijst naar de nadruk die wordt gelegd op specifieke woorden binnen een gesproken uiting om een idee te benadrukken of te contrasteren, of om nieuwe informatie te introduceren. Het wordt vaak gebruikt om een onderliggende bedoeling te impliceren die niet expliciet wordt uitgesproken. Recente vooruitgang in spraakbewuste taalmodelen (SLMs) heeft directe verwerking van audio mogelijk gemaakt, waardoor modellen transcriptie kunnen omzeilen en de volledige rijkdom van het spraaksignaal kunnen benutten, en taken zoals gesproken vraagbeantwoording kunnen uitvoeren. Ondanks de cruciale rol van zinsaccent bij het vormgeven van betekenis en sprekersintentie, wordt het grotendeels over het hoofd gezien bij de evaluatie en ontwikkeling van dergelijke modellen. In dit werk pakken we deze leemte aan door StressTest te introduceren, een benchmark die specifiek is ontworpen om het vermogen van een model te evalueren om interpretaties van gesproken zinnen te onderscheiden op basis van het accentpatroon. We beoordelen de prestaties van verschillende toonaangevende SLMs en constateren dat ze, ondanks hun algehele capaciteiten, slecht presteren op dergelijke taken. Om deze beperking te overwinnen, stellen we een nieuwe pijplijn voor synthetische datageneratie voor en creëren we Stress17k, een trainingsset die verandering van betekenis simuleert die wordt geïmpliceerd door accentvariatie. Vervolgens tonen we empirisch aan dat het optimaliseren van modellen met deze synthetische dataset goed aansluit bij echte opnames en effectieve finetuning van SLMs mogelijk maakt. De resultaten suggereren dat ons gefinetunede model, StresSLM, bestaande modellen aanzienlijk overtreft op zowel taken voor zinsaccentredenering als detectie. Code, modellen, data en audiovoorbeelden zijn beschikbaar op pages.cs.huji.ac.il/adiyoss-lab/stresstest.
English
Sentence stress refers to emphasis, placed on specific words within a spoken
utterance to highlight or contrast an idea, or to introduce new information. It
is often used to imply an underlying intention that is not explicitly stated.
Recent advances in speech-aware language models (SLMs) have enabled direct
processing of audio, allowing models to bypass transcription and access the
full richness of the speech signal and perform audio reasoning tasks such as
spoken question answering. Despite the crucial role of sentence stress in
shaping meaning and speaker intent, it remains largely overlooked in evaluation
and development of such models. In this work, we address this gap by
introducing StressTest, a benchmark specifically designed to evaluate a model's
ability to distinguish between interpretations of spoken sentences based on the
stress pattern. We assess the performance of several leading SLMs and find
that, despite their overall capabilities, they perform poorly on such tasks. To
overcome this limitation, we propose a novel synthetic data generation
pipeline, and create Stress17k, a training set that simulates change of meaning
implied by stress variation. Then, we empirically show that optimizing models
with this synthetic dataset aligns well with real-world recordings and enables
effective finetuning of SLMs. Results suggest, that our finetuned model,
StresSLM, significantly outperforms existing models on both sentence stress
reasoning and detection tasks. Code, models, data, and audio samples -
pages.cs.huji.ac.il/adiyoss-lab/stresstest.