Simulstream: Open-Source-Toolkit zur Evaluierung und Demonstration von Streaming-Sprach-zu-Text-Übersetzungssystemen
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems
December 19, 2025
papers.authors: Marco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli
cs.AI
papers.abstract
Streaming-Sprache-zu-Text-Übersetzung (StreamST) erfordert die gleichzeitige Erzeugung von Übersetzungen mit eingehender Sprache, was strenge Latenzanforderungen stellt und Modelle erfordert, die Entscheidungsfindung mit unvollständigen Informationen mit hoher Übersetzungsqualität in Einklang bringen müssen. Bisherige Forschungsarbeiten zu diesem Thema stützten sich auf das SimulEval-Repository, das nicht mehr gewartet wird und Systeme, die ihre Ausgaben überarbeiten, nicht unterstützt. Darüber hinaus wurde es für die Simulation der Verarbeitung kurzer Segmente und nicht für lange Audio-Streams konzipiert und bietet keine einfache Methode, um Systeme in einer Demo zu präsentieren. Als Lösung führen wir simulstream ein, das erste Open-Source-Framework, das sich der einheitlichen Evaluierung und Demonstration von StreamST-Systemen widmet. Es wurde für die Verarbeitung langer Sprachaufnahmen entwickelt und unterstützt nicht nur inkrementelle Dekodierungsansätze, sondern auch Re-Übersetzungsmethoden, wodurch deren Vergleich innerhalb desselben Frameworks sowohl in Bezug auf Qualität als auch Latenz ermöglicht wird. Zusätzlich bietet es eine interaktive Weboberfläche, um jedes innerhalb des Tools erstellte System zu demonstrieren.
English
Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.