WHISTRESS: Transcripties verrijken met zinsaccentdetectie
WHISTRESS: Enriching Transcriptions with Sentence Stress Detection
May 25, 2025
Auteurs: Iddo Yosha, Dorin Shteyman, Yossi Adi
cs.AI
Samenvatting
Gesproken taal brengt betekenis over niet alleen door woorden, maar ook door
intonatie, emotie en nadruk. Zinsaccent, de nadruk die op specifieke woorden
binnen een zin wordt gelegd, is cruciaal voor het overbrengen van de intentie
van de spreker en is uitgebreid bestudeerd in de linguïstiek. In dit werk
introduceren we WHISTRESS, een aligneringsvrije aanpak om transcriptiesystemen
te verbeteren met zinsaccentdetectie. Om deze taak te ondersteunen, stellen we
TINYSTRESS-15K voor, een schaalbare, synthetische trainingsdataset voor de taak
van zinsaccentdetectie, die het resultaat is van een volledig geautomatiseerd
datasetcreatieproces. We trainen WHISTRESS op TINYSTRESS-15K en evalueren het
tegen verschillende competitieve baselines. Onze resultaten laten zien dat
WHISTRESS bestaande methoden overtreft, terwijl het geen aanvullende
invoerprioriteiten vereist tijdens training of inferentie. Opmerkelijk is dat
WHISTRESS, ondanks het feit dat het op synthetische data is getraind, sterke
zero-shot generalisatie vertoont over diverse benchmarks. Projectpagina:
https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
English
Spoken language conveys meaning not only through words but also through
intonation, emotion, and emphasis. Sentence stress, the emphasis placed on
specific words within a sentence, is crucial for conveying speaker intent and
has been extensively studied in linguistics. In this work, we introduce
WHISTRESS, an alignment-free approach for enhancing transcription systems with
sentence stress detection. To support this task, we propose TINYSTRESS-15K, a
scalable, synthetic training data for the task of sentence stress detection
which resulted from a fully automated dataset creation process. We train
WHISTRESS on TINYSTRESS-15K and evaluate it against several competitive
baselines. Our results show that WHISTRESS outperforms existing methods while
requiring no additional input priors during training or inference. Notably,
despite being trained on synthetic data, WHISTRESS demonstrates strong
zero-shot generalization across diverse benchmarks. Project page:
https://pages.cs.huji.ac.il/adiyoss-lab/whistress.