ChatPaper.aiChatPaper

StressTest: Il tuo modello linguistico è in grado di gestire lo stress?

StressTest: Can YOUR Speech LM Handle the Stress?

May 28, 2025
Autori: Iddo Yosha, Gallil Maimon, Yossi Adi
cs.AI

Abstract

L'accento di frase si riferisce all'enfasi posta su parole specifiche all'interno di un enunciato parlato per evidenziare o contrastare un'idea, o per introdurre nuove informazioni. Viene spesso utilizzato per implicare un'intenzione sottostante che non è esplicitamente dichiarata. I recenti progressi nei modelli linguistici con consapevolezza del parlato (SLM) hanno consentito l'elaborazione diretta dell'audio, permettendo ai modelli di bypassare la trascrizione e accedere alla piena ricchezza del segnale vocale, oltre a eseguire compiti di ragionamento audio come la risposta a domande parlate. Nonostante il ruolo cruciale dell'accento di frase nel plasmare il significato e l'intenzione del parlante, esso rimane ampiamente trascurato nella valutazione e nello sviluppo di tali modelli. In questo lavoro, affrontiamo questa lacuna introducendo StressTest, un benchmark progettato specificamente per valutare la capacità di un modello di distinguere tra interpretazioni di frasi parlate in base al modello di accento. Valutiamo le prestazioni di diversi SLM leader e scopriamo che, nonostante le loro capacità complessive, essi performano male in tali compiti. Per superare questa limitazione, proponiamo una nuova pipeline di generazione di dati sintetici e creiamo Stress17k, un set di addestramento che simula il cambiamento di significato implicato dalla variazione dell'accento. Successivamente, dimostriamo empiricamente che l'ottimizzazione dei modelli con questo dataset sintetico si allinea bene con le registrazioni reali e consente un efficace fine-tuning degli SLM. I risultati suggeriscono che il nostro modello fine-tuned, StresSLM, supera significativamente i modelli esistenti sia nei compiti di ragionamento che di rilevamento dell'accento di frase. Codice, modelli, dati e campioni audio sono disponibili su pages.cs.huji.ac.il/adiyoss-lab/stresstest.
English
Sentence stress refers to emphasis, placed on specific words within a spoken utterance to highlight or contrast an idea, or to introduce new information. It is often used to imply an underlying intention that is not explicitly stated. Recent advances in speech-aware language models (SLMs) have enabled direct processing of audio, allowing models to bypass transcription and access the full richness of the speech signal and perform audio reasoning tasks such as spoken question answering. Despite the crucial role of sentence stress in shaping meaning and speaker intent, it remains largely overlooked in evaluation and development of such models. In this work, we address this gap by introducing StressTest, a benchmark specifically designed to evaluate a model's ability to distinguish between interpretations of spoken sentences based on the stress pattern. We assess the performance of several leading SLMs and find that, despite their overall capabilities, they perform poorly on such tasks. To overcome this limitation, we propose a novel synthetic data generation pipeline, and create Stress17k, a training set that simulates change of meaning implied by stress variation. Then, we empirically show that optimizing models with this synthetic dataset aligns well with real-world recordings and enables effective finetuning of SLMs. Results suggest, that our finetuned model, StresSLM, significantly outperforms existing models on both sentence stress reasoning and detection tasks. Code, models, data, and audio samples - pages.cs.huji.ac.il/adiyoss-lab/stresstest.
PDF182May 30, 2025