WHISTRESS: Anreicherung von Transkriptionen durch Satzbetonungserkennung
WHISTRESS: Enriching Transcriptions with Sentence Stress Detection
May 25, 2025
Autoren: Iddo Yosha, Dorin Shteyman, Yossi Adi
cs.AI
Zusammenfassung
Gesprochene Sprache vermittelt Bedeutung nicht nur durch Worte, sondern auch durch
Intonation, Emotion und Betonung. Satzbetonung, die Hervorhebung bestimmter Wörter
innerhalb eines Satzes, ist entscheidend für die Vermittlung der Sprecherabsicht und
wurde in der Linguistik ausführlich untersucht. In dieser Arbeit stellen wir
WHISTRESS vor, einen alignierungsfreien Ansatz zur Verbesserung von Transkriptionssystemen
mit Satzbetonungserkennung. Zur Unterstützung dieser Aufgabe schlagen wir TINYSTRESS-15K vor,
ein skalierbares, synthetisches Trainingsdatenmaterial für die Aufgabe der Satzbetonungserkennung,
das aus einem vollständig automatisierten Datensatz-Erstellungsprozess resultiert. Wir trainieren
WHISTRESS auf TINYSTRESS-15K und bewerten es gegen mehrere wettbewerbsfähige Baselines.
Unsere Ergebnisse zeigen, dass WHISTRESS bestehende Methoden übertrifft, während es während
des Trainings oder der Inferenz keine zusätzlichen Eingabeprioritäten benötigt. Bemerkenswerterweise
zeigt WHISTRESS trotz des Trainings auf synthetischen Daten eine starke Zero-Shot-Generalisierung
über diverse Benchmarks hinweg. Projektseite:
https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
English
Spoken language conveys meaning not only through words but also through
intonation, emotion, and emphasis. Sentence stress, the emphasis placed on
specific words within a sentence, is crucial for conveying speaker intent and
has been extensively studied in linguistics. In this work, we introduce
WHISTRESS, an alignment-free approach for enhancing transcription systems with
sentence stress detection. To support this task, we propose TINYSTRESS-15K, a
scalable, synthetic training data for the task of sentence stress detection
which resulted from a fully automated dataset creation process. We train
WHISTRESS on TINYSTRESS-15K and evaluate it against several competitive
baselines. Our results show that WHISTRESS outperforms existing methods while
requiring no additional input priors during training or inference. Notably,
despite being trained on synthetic data, WHISTRESS demonstrates strong
zero-shot generalization across diverse benchmarks. Project page:
https://pages.cs.huji.ac.il/adiyoss-lab/whistress.Summary
AI-Generated Summary