스트레스 테스트: 당신의 음성 언어 모델이 스트레스를 견딜 수 있는가?
StressTest: Can YOUR Speech LM Handle the Stress?
May 28, 2025
저자: Iddo Yosha, Gallil Maimon, Yossi Adi
cs.AI
초록
문장 강세(Stress)는 발화 내 특정 단어에 강조를 두어 아이디어를 강조하거나 대조하거나, 새로운 정보를 도입하는 것을 의미합니다. 이는 종종 명시적으로 표현되지 않은 잠재적인 의도를 암시하기 위해 사용됩니다. 최근 음성 인식 언어 모델(Speech-aware Language Models, SLMs)의 발전으로 오디오를 직접 처리할 수 있게 되었으며, 이를 통해 모델은 전사를 생략하고 음성 신호의 풍부한 정보에 접근하여 음성 질의응답과 같은 오디오 추론 작업을 수행할 수 있게 되었습니다. 그러나 문장 강세가 의미와 화자의 의도를 형성하는 데 중요한 역할을 함에도 불구하고, 이러한 모델의 평가와 개발에서 여전히 크게 간과되고 있습니다. 본 연구에서는 이러한 격차를 해소하기 위해 StressTest라는 벤치마크를 도입하여, 모델이 강세 패턴에 기반한 음성 문장의 해석을 구별하는 능력을 평가합니다. 여러 주요 SLM의 성능을 평가한 결과, 전반적인 능력에도 불구하고 이러한 작업에서 낮은 성능을 보이는 것을 확인했습니다. 이러한 한계를 극복하기 위해, 우리는 새로운 합성 데이터 생성 파이프라인을 제안하고, 강세 변화에 따른 의미 변화를 시뮬레이션한 학습 데이터셋인 Stress17k를 생성했습니다. 그런 다음, 이 합성 데이터셋으로 모델을 최적화하는 것이 실제 녹음과 잘 맞으며 SLM의 효과적인 미세 조정을 가능하게 한다는 것을 실증적으로 보여줍니다. 결과적으로, 우리가 미세 조정한 모델인 StresSLM은 문장 강세 추론 및 탐지 작업에서 기존 모델을 크게 능가하는 성능을 보였습니다. 코드, 모델, 데이터 및 오디오 샘플은 pages.cs.huji.ac.il/adiyoss-lab/stresstest에서 확인할 수 있습니다.
English
Sentence stress refers to emphasis, placed on specific words within a spoken
utterance to highlight or contrast an idea, or to introduce new information. It
is often used to imply an underlying intention that is not explicitly stated.
Recent advances in speech-aware language models (SLMs) have enabled direct
processing of audio, allowing models to bypass transcription and access the
full richness of the speech signal and perform audio reasoning tasks such as
spoken question answering. Despite the crucial role of sentence stress in
shaping meaning and speaker intent, it remains largely overlooked in evaluation
and development of such models. In this work, we address this gap by
introducing StressTest, a benchmark specifically designed to evaluate a model's
ability to distinguish between interpretations of spoken sentences based on the
stress pattern. We assess the performance of several leading SLMs and find
that, despite their overall capabilities, they perform poorly on such tasks. To
overcome this limitation, we propose a novel synthetic data generation
pipeline, and create Stress17k, a training set that simulates change of meaning
implied by stress variation. Then, we empirically show that optimizing models
with this synthetic dataset aligns well with real-world recordings and enables
effective finetuning of SLMs. Results suggest, that our finetuned model,
StresSLM, significantly outperforms existing models on both sentence stress
reasoning and detection tasks. Code, models, data, and audio samples -
pages.cs.huji.ac.il/adiyoss-lab/stresstest.