StressTest: Kan JOUW Taalmodel Omgaan met de Stress?

Samenvatting

Zinsaccent verwijst naar de nadruk die wordt gelegd op specifieke woorden binnen een gesproken uiting om een idee te benadrukken of te contrasteren, of om nieuwe informatie te introduceren. Het wordt vaak gebruikt om een onderliggende bedoeling te impliceren die niet expliciet wordt uitgesproken. Recente vooruitgang in spraakbewuste taalmodelen (SLMs) heeft directe verwerking van audio mogelijk gemaakt, waardoor modellen transcriptie kunnen omzeilen en de volledige rijkdom van het spraaksignaal kunnen benutten, en taken zoals gesproken vraagbeantwoording kunnen uitvoeren. Ondanks de cruciale rol van zinsaccent bij het vormgeven van betekenis en sprekersintentie, wordt het grotendeels over het hoofd gezien bij de evaluatie en ontwikkeling van dergelijke modellen. In dit werk pakken we deze leemte aan door StressTest te introduceren, een benchmark die specifiek is ontworpen om het vermogen van een model te evalueren om interpretaties van gesproken zinnen te onderscheiden op basis van het accentpatroon. We beoordelen de prestaties van verschillende toonaangevende SLMs en constateren dat ze, ondanks hun algehele capaciteiten, slecht presteren op dergelijke taken. Om deze beperking te overwinnen, stellen we een nieuwe pijplijn voor synthetische datageneratie voor en creëren we Stress17k, een trainingsset die verandering van betekenis simuleert die wordt geïmpliceerd door accentvariatie. Vervolgens tonen we empirisch aan dat het optimaliseren van modellen met deze synthetische dataset goed aansluit bij echte opnames en effectieve finetuning van SLMs mogelijk maakt. De resultaten suggereren dat ons gefinetunede model, StresSLM, bestaande modellen aanzienlijk overtreft op zowel taken voor zinsaccentredenering als detectie. Code, modellen, data en audiovoorbeelden zijn beschikbaar op pages.cs.huji.ac.il/adiyoss-lab/stresstest.

English

Sentence stress refers to emphasis, placed on specific words within a spoken utterance to highlight or contrast an idea, or to introduce new information. It is often used to imply an underlying intention that is not explicitly stated. Recent advances in speech-aware language models (SLMs) have enabled direct processing of audio, allowing models to bypass transcription and access the full richness of the speech signal and perform audio reasoning tasks such as spoken question answering. Despite the crucial role of sentence stress in shaping meaning and speaker intent, it remains largely overlooked in evaluation and development of such models. In this work, we address this gap by introducing StressTest, a benchmark specifically designed to evaluate a model's ability to distinguish between interpretations of spoken sentences based on the stress pattern. We assess the performance of several leading SLMs and find that, despite their overall capabilities, they perform poorly on such tasks. To overcome this limitation, we propose a novel synthetic data generation pipeline, and create Stress17k, a training set that simulates change of meaning implied by stress variation. Then, we empirically show that optimizing models with this synthetic dataset aligns well with real-world recordings and enables effective finetuning of SLMs. Results suggest, that our finetuned model, StresSLM, significantly outperforms existing models on both sentence stress reasoning and detection tasks. Code, models, data, and audio samples - pages.cs.huji.ac.il/adiyoss-lab/stresstest.

StressTest: Kan JOUW Taalmodel Omgaan met de Stress?

StressTest: Can YOUR Speech LM Handle the Stress?

Samenvatting

Support