ChatPaper.aiChatPaper

Simulstream: ストリーミング音声テキスト翻訳システムの評価とデモンストレーションのためのオープンソースツールキット

Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

December 19, 2025
著者: Marco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli
cs.AI

要旨

ストリーミング音声テキスト翻訳(StreamST)は、入力される音声と同時に翻訳を生成することを要求し、厳密な遅延制約を課すとともに、部分的な情報に基づく意思決定と高品質な翻訳のバランスを取るモデルを必要とします。これまでのこの分野の研究は、もはやメンテナンスされず、出力を修正するシステムをサポートしていないSimulEvalリポジトリに依存してきました。さらに、SimulEvalは長文の音声ストリームではなく短いセグメントの処理をシミュレートするように設計されており、システムをデモンストレーションする簡単な方法を提供していません。この解決策として、我々はStreamSTシステムの統合的な評価とデモンストレーションに特化した初のオープンソースフレームワークであるsimulstreamを紹介します。長文音声処理向けに設計されたsimulstreamは、増分デコードアプローチだけでなく、再翻訳手法もサポートし、同一フレームワーク内で品質と遅延の両面からそれらを比較することを可能にします。さらに、このツール内で構築された任意のシステムをデモンストレーションするための対話型ウェブインターフェースも提供します。
English
Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.
PDF31December 25, 2025