Simulstream: Kit de Herramientas de Código Abierto para la Evaluación y Demostración de Sistemas de Traducción de Voz a Texto en Tiempo Real

Resumen

La Traducción Simultánea de Voz a Texto (StreamST) requiere producir traducciones de forma concurrente con el discurso entrante, lo que impone restricciones estrictas de latencia y exige modelos que equilibren la toma de decisiones con información parcial y una alta calidad de traducción. Los esfuerzos de investigación sobre el tema hasta ahora han dependido del repositorio SimulEval, que ya no se mantiene y no admite sistemas que revisen sus salidas. Además, fue diseñado para simular el procesamiento de segmentos cortos, en lugar de flujos de audio de larga duración, y no proporciona un método sencillo para mostrar los sistemas en una demostración. Como solución, presentamos simulstream, el primer marco de trabajo de código abierto dedicado a la evaluación unificada y demostración de sistemas StreamST. Diseñado para el procesamiento de voz de larga duración, admite no solo enfoques de decodificación incremental, sino también métodos de retraducción, permitiendo su comparación dentro del mismo marco tanto en términos de calidad como de latencia. Además, también ofrece una interfaz web interactiva para demostrar cualquier sistema construido dentro de la herramienta.

English

Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.