Simulstream: 스트리밍 음성-텍스트 번역 시스템 평가 및 시연을 위한 오픈소스 툴킷
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems
December 19, 2025
저자: Marco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli
cs.AI
초록
스트리밍 음성-텍스트 번역(StreamST)은 수신 음성과 동시에 번역을 생성해야 하므로 엄격한 지연 시간 제약이 적용되며, 부분 정보 의사 결정과 높은 번역 품질 간의 균형을 잡은 모델이 요구됩니다. 해당 주제에 대한 연구는 지금까지 SimulEval 저장소에 의존해 왔으나, 이는 더 이상 유지 관리되지 않으며 출력을 수정하는 시스템을 지원하지 않습니다. 또한 이는 장시간 오디오 스트림이 아닌 짧은 세그먼트 처리 시뮬레이션을 위해 설계되었으며, 데모에서 시스템을 쉽게展示할 수 있는 방법을 제공하지 않습니다. 이를 해결하기 위해 우리는 StreamST 시스템의 통합 평가 및 데모 전용 최초의 오픈소스 프레임워크인 simulstream을 소개합니다. 장시간 음성 처리를 위해 설계된 simulstream은 증분 디코딩 접근법뿐만 아니라 재번역 방법도 지원하여, 동일한 프레임워크 내에서 품질과 지연 시간 측면 모두를 비교할 수 있게 합니다. 또한 이 도구 내에서 구축된 모든 시스템을 데모할 수 있는 대화형 웹 인터페이스도 제공합니다.
English
Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.