WHISTRESS: Enriquecimiento de Transcripciones con Detección de Acento en la Oración
WHISTRESS: Enriching Transcriptions with Sentence Stress Detection
May 25, 2025
Autores: Iddo Yosha, Dorin Shteyman, Yossi Adi
cs.AI
Resumen
El lenguaje hablado transmite significado no solo a través de palabras, sino también mediante la entonación, la emoción y el énfasis. El acento oracional, es decir, el énfasis que se coloca en palabras específicas dentro de una oración, es crucial para transmitir la intención del hablante y ha sido ampliamente estudiado en lingüística. En este trabajo, presentamos WHISTRESS, un enfoque libre de alineación para mejorar los sistemas de transcripción con detección de acento oracional. Para respaldar esta tarea, proponemos TINYSTRESS-15K, un conjunto de datos de entrenamiento sintético y escalable para la detección de acento oracional, generado mediante un proceso de creación de datos completamente automatizado. Entrenamos WHISTRESS en TINYSTRESS-15K y lo evaluamos frente a varias líneas base competitivas. Nuestros resultados muestran que WHISTRESS supera a los métodos existentes sin requerir información previa adicional durante el entrenamiento o la inferencia. Cabe destacar que, a pesar de haber sido entrenado con datos sintéticos, WHISTRESS demuestra una fuerte generalización cero-shot en diversos puntos de referencia. Página del proyecto: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
English
Spoken language conveys meaning not only through words but also through
intonation, emotion, and emphasis. Sentence stress, the emphasis placed on
specific words within a sentence, is crucial for conveying speaker intent and
has been extensively studied in linguistics. In this work, we introduce
WHISTRESS, an alignment-free approach for enhancing transcription systems with
sentence stress detection. To support this task, we propose TINYSTRESS-15K, a
scalable, synthetic training data for the task of sentence stress detection
which resulted from a fully automated dataset creation process. We train
WHISTRESS on TINYSTRESS-15K and evaluate it against several competitive
baselines. Our results show that WHISTRESS outperforms existing methods while
requiring no additional input priors during training or inference. Notably,
despite being trained on synthetic data, WHISTRESS demonstrates strong
zero-shot generalization across diverse benchmarks. Project page:
https://pages.cs.huji.ac.il/adiyoss-lab/whistress.Summary
AI-Generated Summary