Simulstream : Boîte à outils open-source pour l'évaluation et la démonstration de systèmes de traduction vocale en flux continu

Résumé

La traduction de parole en texte en flux continu (StreamST) nécessite de produire des traductions simultanément à la réception de la parole, imposant des contraintes de latence strictes et exigeant des modèles qui équilibrent la prise de décision sur information partielle avec une haute qualité de traduction. Les travaux de recherche sur le sujet ont jusqu'à présent reposé sur le dépôt SimulEval, qui n'est plus maintenu et ne prend pas en charge les systèmes révisant leurs sorties. De plus, il a été conçu pour simuler le traitement de segments courts plutôt que de flux audio longs, et il ne fournit pas de méthode simple pour présenter les systèmes en démonstration. Comme solution, nous présentons simulstream, le premier cadre open-source dédié à l'évaluation unifiée et à la démonstration des systèmes StreamST. Conçu pour le traitement de parole longue, il prend en charge non seulement les approches de décodage incrémental, mais aussi les méthodes de retraduction, permettant leur comparaison au sein du même cadre à la fois en termes de qualité et de latence. De plus, il offre également une interface web interactive pour démontrer tout système construit avec l'outil.

English

Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.

Simulstream : Boîte à outils open-source pour l'évaluation et la démonstration de systèmes de traduction vocale en flux continu

Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

Résumé

Support