StressTest: O SEU Modelo de Linguagem de Fala Consegue Lidar com o Estresse?
StressTest: Can YOUR Speech LM Handle the Stress?
May 28, 2025
Autores: Iddo Yosha, Gallil Maimon, Yossi Adi
cs.AI
Resumo
A ênfase da frase refere-se ao destaque colocado em palavras específicas dentro de uma expressão falada para ressaltar ou contrastar uma ideia, ou para introduzir novas informações. Frequentemente, é usada para implicar uma intenção subjacente que não é explicitamente declarada. Avanços recentes em modelos de linguagem com consciência de fala (SLMs, do inglês Speech-aware Language Models) permitiram o processamento direto de áudio, possibilitando que os modelos ignorem a transcrição e acessem toda a riqueza do sinal de fala, além de realizar tarefas de raciocínio em áudio, como a resposta a perguntas faladas. Apesar do papel crucial da ênfase da frase na formação do significado e da intenção do falante, ela permanece amplamente negligenciada na avaliação e no desenvolvimento desses modelos. Neste trabalho, abordamos essa lacuna ao introduzir o StressTest, um benchmark projetado especificamente para avaliar a capacidade de um modelo de distinguir entre interpretações de frases faladas com base no padrão de ênfase. Avaliamos o desempenho de vários SLMs líderes e constatamos que, apesar de suas capacidades gerais, eles têm um desempenho ruim nessas tarefas. Para superar essa limitação, propomos um novo pipeline de geração de dados sintéticos e criamos o Stress17k, um conjunto de treinamento que simula a mudança de significado implícita pela variação de ênfase. Em seguida, mostramos empiricamente que a otimização de modelos com esse conjunto de dados sintéticos se alinha bem com gravações do mundo real e permite um ajuste fino eficaz dos SLMs. Os resultados sugerem que nosso modelo ajustado, o StresSLM, supera significativamente os modelos existentes em tarefas de raciocínio e detecção de ênfase da frase. Código, modelos, dados e amostras de áudio estão disponíveis em: pages.cs.huji.ac.il/adiyoss-lab/stresstest.
English
Sentence stress refers to emphasis, placed on specific words within a spoken
utterance to highlight or contrast an idea, or to introduce new information. It
is often used to imply an underlying intention that is not explicitly stated.
Recent advances in speech-aware language models (SLMs) have enabled direct
processing of audio, allowing models to bypass transcription and access the
full richness of the speech signal and perform audio reasoning tasks such as
spoken question answering. Despite the crucial role of sentence stress in
shaping meaning and speaker intent, it remains largely overlooked in evaluation
and development of such models. In this work, we address this gap by
introducing StressTest, a benchmark specifically designed to evaluate a model's
ability to distinguish between interpretations of spoken sentences based on the
stress pattern. We assess the performance of several leading SLMs and find
that, despite their overall capabilities, they perform poorly on such tasks. To
overcome this limitation, we propose a novel synthetic data generation
pipeline, and create Stress17k, a training set that simulates change of meaning
implied by stress variation. Then, we empirically show that optimizing models
with this synthetic dataset aligns well with real-world recordings and enables
effective finetuning of SLMs. Results suggest, that our finetuned model,
StresSLM, significantly outperforms existing models on both sentence stress
reasoning and detection tasks. Code, models, data, and audio samples -
pages.cs.huji.ac.il/adiyoss-lab/stresstest.