WHISTRESS: Arricchimento delle Trascrizioni con Rilevazione dell'Accento Fraseologico
WHISTRESS: Enriching Transcriptions with Sentence Stress Detection
May 25, 2025
Autori: Iddo Yosha, Dorin Shteyman, Yossi Adi
cs.AI
Abstract
Il linguaggio parlato trasmette significato non solo attraverso le parole, ma anche tramite intonazione, emozione ed enfasi. L'accento di frase, ovvero l'enfasi posta su parole specifiche all'interno di una frase, è cruciale per comunicare l'intenzione del parlante ed è stato ampiamente studiato in linguistica. In questo lavoro, introduciamo WHISTRESS, un approccio senza allineamento per migliorare i sistemi di trascrizione con il rilevamento dell'accento di frase. Per supportare questo compito, proponiamo TINYSTRESS-15K, un insieme di dati di addestramento sintetico e scalabile per il rilevamento dell'accento di frase, generato attraverso un processo completamente automatizzato di creazione del dataset. Addestriamo WHISTRESS su TINYSTRESS-15K e lo valutiamo rispetto a diverse baseline competitive. I nostri risultati dimostrano che WHISTRESS supera i metodi esistenti senza richiedere input aggiuntivi durante l'addestramento o l'inferenza. In particolare, nonostante sia stato addestrato su dati sintetici, WHISTRESS mostra una forte generalizzazione zero-shot su diversi benchmark. Pagina del progetto: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
English
Spoken language conveys meaning not only through words but also through
intonation, emotion, and emphasis. Sentence stress, the emphasis placed on
specific words within a sentence, is crucial for conveying speaker intent and
has been extensively studied in linguistics. In this work, we introduce
WHISTRESS, an alignment-free approach for enhancing transcription systems with
sentence stress detection. To support this task, we propose TINYSTRESS-15K, a
scalable, synthetic training data for the task of sentence stress detection
which resulted from a fully automated dataset creation process. We train
WHISTRESS on TINYSTRESS-15K and evaluate it against several competitive
baselines. Our results show that WHISTRESS outperforms existing methods while
requiring no additional input priors during training or inference. Notably,
despite being trained on synthetic data, WHISTRESS demonstrates strong
zero-shot generalization across diverse benchmarks. Project page:
https://pages.cs.huji.ac.il/adiyoss-lab/whistress.