SimulU: Бестренировочная стратегия для длительного синхронного речевого перевода
SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation
March 11, 2026
Авторы: Amirbek Djanibekov, Luisa Bentivogli, Matteo Negri, Sara Papi
cs.AI
Аннотация
Синхронный перевод речи в речь (SimulS2S) играет ключевую роль для обеспечения многоязыковой коммуникации в реальном времени и все активнее интегрируется в платформы для проведения встреч и потоковой передачи. Несмотря на это, SimulS2S остается недостаточно изученным в исследованиях, где современные решения часто опираются на ресурсоемкие процедуры обучения и работают с короткими, предварительно сегментированными высказываниями, не обеспечивая обобщаемости на непрерывную речь. Для преодоления этого разрыва мы предлагаем SimulU — первую стратегию для длительного SimulS2S, не требующую обучения. SimulU использует стратегии управления историей контекста и выбора речевого вывода, которые задействуют механизм перекрестного внимания в предварительно обученных end-to-end моделях для регулирования как истории входных данных, так и генерации выходных данных. Оценки на наборе MuST-C для 8 языков показывают, что SimulU обеспечивает лучшее или сопоставимое соотношение «качество-задержка» по сравнению с мощными каскадными моделями. Благодаря отсутствию необходимости в специальном обучении, SimulU открывает перспективный путь к реализации end-to-end SimulS2S в реалистичных сценариях с длительной речью.
English
Simultaneous speech-to-speech translation (SimulS2S) is essential for real-time multilingual communication, with increasing integration into meeting and streaming platforms. Despite this, SimulS2S remains underexplored in research, where current solutions often rely on resource-intensive training procedures and operate on short-form, pre-segmented utterances, failing to generalize to continuous speech. To bridge this gap, we propose SimulU, the first training-free policy for long-form SimulS2S. SimulU adopts history management and speech output selection strategies that exploit cross-attention in pre-trained end-to-end models to regulate both input history and output generation. Evaluations on MuST-C across 8 languages show that SimulU achieves a better or comparable quality-latency trade-off against strong cascaded models. By eliminating the need for ad-hoc training, SimulU offers a promising path to end-to-end SimulS2S in realistic, long-form scenarios.