Simulstream: Kit de Ferramentas de Código Aberto para Avaliação e Demonstração de Sistemas de Tradução de Fala para Texto em Tempo Real

Resumo

A tradução de fala para texto em streaming (StreamST) requer a produção de traduções simultaneamente com o discurso recebido, impondo restrições rigorosas de latência e exigindo modelos que equilibrem a tomada de decisão com informação parcial com uma alta qualidade de tradução. Os esforços de pesquisa sobre o tema até agora dependeram do repositório SimulEval, que não é mais mantido e não suporta sistemas que revisam suas saídas. Além disso, ele foi projetado para simular o processamento de segmentos curtos, em vez de fluxos de áudio de longa duração, e não fornece um método fácil para demonstrar sistemas em uma demonstração. Como solução, apresentamos o simulstream, o primeiro *framework* de código aberto dedicado à avaliação unificada e demonstração de sistemas StreamST. Projetado para o processamento de fala de longa duração, ele suporta não apenas abordagens de decodificação incremental, mas também métodos de retradução, permitindo sua comparação dentro da mesma estrutura, tanto em termos de qualidade quanto de latência. Além disso, também oferece uma interface web interativa para demonstrar qualquer sistema construído dentro da ferramenta.

English

Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.