Simulstream: Toolkit Open-Source per la Valutazione e Dimostrazione di Sistemi di Traduzione Vocale in Tempo Reale

Abstract

La traduzione simultanea parlato-testo (StreamST) richiede la produzione di traduzioni in concomitanza con il parlato in arrivo, imponendo vincoli di latenza stringenti e richiedendo modelli che bilancino il processo decisionale su informazioni parziali con un'elevata qualità di traduzione. Finora, gli sforzi di ricerca sull'argomento si sono basati sul repository SimulEval, che non è più mantenuto e non supporta sistemi in grado di revisionare i propri output. Inoltre, è stato progettato per simulare l'elaborazione di segmenti brevi, piuttosto che flussi audio di lunga durata, e non fornisce un metodo semplice per mostrare i sistemi in una demo. Come soluzione, introduciamo SimulStream, il primo framework open-source dedicato alla valutazione unificata e alla dimostrazione di sistemi StreamST. Progettato per l'elaborazione del parlato di lunga durata, supporta non solo approcci di decodifica incrementale, ma anche metodi di re-traduzione, consentendo il loro confronto all'interno dello stesso framework sia in termini di qualità che di latenza. Inoltre, offre anche un'interfaccia web interattiva per dimostrare qualsiasi sistema costruito all'interno dello strumento.

English

Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.

Simulstream: Toolkit Open-Source per la Valutazione e Dimostrazione di Sistemi di Traduzione Vocale in Tempo Reale

Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

Abstract

Support