Simulstream: Инструментарий с открытым исходным кодом для оценки и демонстрации систем потокового перевода речи в текст

Аннотация

Потоковый перевод речи в текст (StreamST) требует генерации переводов параллельно с поступлением речевого сигнала, что накладывает строгие ограничения на задержку и требует моделей, способных балансировать между принятием решений на основе частичной информации и высоким качеством перевода. До настоящего времени исследования в этой области опирались на репозиторий SimulEval, который больше не поддерживается и не работает с системами, способными исправлять свои выходные данные. Кроме того, он был разработан для имитации обработки коротких сегментов, а не длинных аудиопотоков, и не предоставляет простого способа демонстрации систем. В качестве решения мы представляем simulstream — первую открытую платформу, предназначенную для унифицированной оценки и демонстрации систем StreamST. Разработанная для обработки длинных речевых сегментов, она поддерживает не только подходы с инкрементным декодированием, но и методы с перепереводом, позволяя сравнивать их в рамках одной платформы как по качеству, так и по задержке. Кроме того, она также предлагает интерактивный веб-интерфейс для демонстрации любой системы, созданной с помощью этого инструмента.

English

Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.

Simulstream: Инструментарий с открытым исходным кодом для оценки и демонстрации систем потокового перевода речи в текст

Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

Аннотация

Support