WHISTRESS: Enriquecendo Transcrições com Detecção de Ênfase em Frases
WHISTRESS: Enriching Transcriptions with Sentence Stress Detection
May 25, 2025
Autores: Iddo Yosha, Dorin Shteyman, Yossi Adi
cs.AI
Resumo
A linguagem falada transmite significado não apenas por meio de palavras, mas também por meio de entonação, emoção e ênfase. A ênfase frasal, que é o destaque dado a palavras específicas dentro de uma frase, é crucial para transmitir a intenção do falante e tem sido amplamente estudada na linguística. Neste trabalho, apresentamos o WHISTRESS, uma abordagem livre de alinhamento para aprimorar sistemas de transcrição com detecção de ênfase frasal. Para apoiar essa tarefa, propomos o TINYSTRESS-15K, um conjunto de dados de treinamento sintético e escalável para a tarefa de detecção de ênfase frasal, resultante de um processo de criação de dados totalmente automatizado. Treinamos o WHISTRESS no TINYSTRESS-15K e o avaliamos em comparação com várias linhas de base competitivas. Nossos resultados mostram que o WHISTRESS supera os métodos existentes, sem exigir informações prévias adicionais durante o treinamento ou a inferência. Notavelmente, apesar de ter sido treinado com dados sintéticos, o WHISTRESS demonstra uma forte generalização zero-shot em diversos benchmarks. Página do projeto: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
English
Spoken language conveys meaning not only through words but also through
intonation, emotion, and emphasis. Sentence stress, the emphasis placed on
specific words within a sentence, is crucial for conveying speaker intent and
has been extensively studied in linguistics. In this work, we introduce
WHISTRESS, an alignment-free approach for enhancing transcription systems with
sentence stress detection. To support this task, we propose TINYSTRESS-15K, a
scalable, synthetic training data for the task of sentence stress detection
which resulted from a fully automated dataset creation process. We train
WHISTRESS on TINYSTRESS-15K and evaluate it against several competitive
baselines. Our results show that WHISTRESS outperforms existing methods while
requiring no additional input priors during training or inference. Notably,
despite being trained on synthetic data, WHISTRESS demonstrates strong
zero-shot generalization across diverse benchmarks. Project page:
https://pages.cs.huji.ac.il/adiyoss-lab/whistress.