WHISTRESS: Enriquecimiento de Transcripciones con Detección de Acento en la Oración

Resumen

El lenguaje hablado transmite significado no solo a través de palabras, sino también mediante la entonación, la emoción y el énfasis. El acento oracional, es decir, el énfasis que se coloca en palabras específicas dentro de una oración, es crucial para transmitir la intención del hablante y ha sido ampliamente estudiado en lingüística. En este trabajo, presentamos WHISTRESS, un enfoque libre de alineación para mejorar los sistemas de transcripción con detección de acento oracional. Para respaldar esta tarea, proponemos TINYSTRESS-15K, un conjunto de datos de entrenamiento sintético y escalable para la detección de acento oracional, generado mediante un proceso de creación de datos completamente automatizado. Entrenamos WHISTRESS en TINYSTRESS-15K y lo evaluamos frente a varias líneas base competitivas. Nuestros resultados muestran que WHISTRESS supera a los métodos existentes sin requerir información previa adicional durante el entrenamiento o la inferencia. Cabe destacar que, a pesar de haber sido entrenado con datos sintéticos, WHISTRESS demuestra una fuerte generalización cero-shot en diversos puntos de referencia. Página del proyecto: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.

English

Spoken language conveys meaning not only through words but also through intonation, emotion, and emphasis. Sentence stress, the emphasis placed on specific words within a sentence, is crucial for conveying speaker intent and has been extensively studied in linguistics. In this work, we introduce WHISTRESS, an alignment-free approach for enhancing transcription systems with sentence stress detection. To support this task, we propose TINYSTRESS-15K, a scalable, synthetic training data for the task of sentence stress detection which resulted from a fully automated dataset creation process. We train WHISTRESS on TINYSTRESS-15K and evaluate it against several competitive baselines. Our results show that WHISTRESS outperforms existing methods while requiring no additional input priors during training or inference. Notably, despite being trained on synthetic data, WHISTRESS demonstrates strong zero-shot generalization across diverse benchmarks. Project page: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.

WHISTRESS: Enriquecimiento de Transcripciones con Detección de Acento en la Oración

WHISTRESS: Enriching Transcriptions with Sentence Stress Detection

Resumen

Support