Simulstream: Open-Source Toolkit voor Evaluatie en Demonstratie van Streaming Spraak-naar-Tekst Vertaalsystemen
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems
December 19, 2025
Auteurs: Marco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli
cs.AI
Samenvatting
Streaming Spraak-naar-Tekst Vertaling (StreamST) vereist dat vertalingen gelijktijdig met de binnenkomende spraak worden geproduceerd, wat strikte latentie-eisen oplegt en modellen vereist die een balans vinden tussen het nemen van beslissingen op basis van gedeeltelijke informatie en hoge vertaalkwaliteit. Onderzoeksinspanningen op dit gebied hebben tot nu toe vertrouwd op de SimulEval-repository, die niet langer wordt onderhouden en systemen die hun uitvoer reviseren niet ondersteunt. Bovendien is deze ontworpen voor het simuleren van de verwerking van korte segmenten, in plaats van langdurige audiostromen, en biedt het geen eenvoudige methode om systemen in een demo te presenteren. Als oplossing introduceren wij SimulStream, het eerste open-source raamwerk dat is toegewijd aan de uniforme evaluatie en demonstratie van StreamST-systemen. Ontworpen voor de verwerking van langdurige spraak, ondersteunt het niet alleen incrementele decodeerbenaderingen, maar ook hervertalingsmethoden, waardoor hun vergelijking binnen hetzelfde raamwerk mogelijk wordt, zowel op het gebied van kwaliteit als latentie. Daarnaast biedt het ook een interactieve webinterface om elk binnen de tool gebouwd systeem te demonstreren.
English
Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.