StressTest: ¿Tu modelo de lenguaje para habla puede manejar el estrés?
StressTest: Can YOUR Speech LM Handle the Stress?
May 28, 2025
Autores: Iddo Yosha, Gallil Maimon, Yossi Adi
cs.AI
Resumen
El énfasis oracional se refiere a la importancia que se otorga a palabras específicas dentro de una expresión hablada para resaltar o contrastar una idea, o para introducir información nueva. A menudo se utiliza para implicar una intención subyacente que no se expresa explícitamente. Los avances recientes en los modelos de lenguaje conscientes del habla (SLMs, por sus siglas en inglés) han permitido el procesamiento directo de audio, lo que posibilita que los modelos eviten la transcripción y accedan a la riqueza completa de la señal de voz, realizando tareas de razonamiento auditivo como la respuesta a preguntas habladas. A pesar del papel crucial del énfasis oracional en la configuración del significado y la intención del hablante, este sigue siendo ampliamente ignorado en la evaluación y el desarrollo de dichos modelos. En este trabajo, abordamos esta brecha presentando StressTest, un punto de referencia diseñado específicamente para evaluar la capacidad de un modelo para distinguir entre interpretaciones de oraciones habladas basadas en el patrón de énfasis. Evaluamos el rendimiento de varios SLMs líderes y encontramos que, a pesar de sus capacidades generales, su desempeño es deficiente en tales tareas. Para superar esta limitación, proponemos una novedosa tubería de generación de datos sintéticos y creamos Stress17k, un conjunto de entrenamiento que simula el cambio de significado implícito en la variación del énfasis. Luego, demostramos empíricamente que la optimización de modelos con este conjunto de datos sintéticos se alinea bien con grabaciones del mundo real y permite un ajuste fino efectivo de los SLMs. Los resultados sugieren que nuestro modelo ajustado, StresSLM, supera significativamente a los modelos existentes tanto en tareas de razonamiento como de detección del énfasis oracional. Código, modelos, datos y muestras de audio disponibles en: pages.cs.huji.ac.il/adiyoss-lab/stresstest.
English
Sentence stress refers to emphasis, placed on specific words within a spoken
utterance to highlight or contrast an idea, or to introduce new information. It
is often used to imply an underlying intention that is not explicitly stated.
Recent advances in speech-aware language models (SLMs) have enabled direct
processing of audio, allowing models to bypass transcription and access the
full richness of the speech signal and perform audio reasoning tasks such as
spoken question answering. Despite the crucial role of sentence stress in
shaping meaning and speaker intent, it remains largely overlooked in evaluation
and development of such models. In this work, we address this gap by
introducing StressTest, a benchmark specifically designed to evaluate a model's
ability to distinguish between interpretations of spoken sentences based on the
stress pattern. We assess the performance of several leading SLMs and find
that, despite their overall capabilities, they perform poorly on such tasks. To
overcome this limitation, we propose a novel synthetic data generation
pipeline, and create Stress17k, a training set that simulates change of meaning
implied by stress variation. Then, we empirically show that optimizing models
with this synthetic dataset aligns well with real-world recordings and enables
effective finetuning of SLMs. Results suggest, that our finetuned model,
StresSLM, significantly outperforms existing models on both sentence stress
reasoning and detection tasks. Code, models, data, and audio samples -
pages.cs.huji.ac.il/adiyoss-lab/stresstest.