SimulU: Strategia senza Addestramento per la Traduzione Simultanea Discorso-Discorso in Formato Esteso

Abstract

La traduzione simultanea parlato-parlato (SimulS2S) è fondamentale per la comunicazione multilingue in tempo reale e la sua integrazione nelle piattaforme di riunione e streaming è in costante aumento. Nonostante ciò, la SimulS2S rimane poco esplorata in ambito di ricerca, dove le soluzioni attuali si basano spesso su procedure di addestramento ad alta intensità di risorse e operano su enunciati brevi e pre-segmentati, non riuscendo a generalizzare al parlato continuo. Per colmare questa lacuna, proponiamo SimulU, la prima strategia senza addestramento per la SimulS2S di lungo formato. SimulU adotta strategie di gestione della cronologia e di selezione dell'output vocale che sfruttano il cross-attention in modelli end-to-end pre-addestrati per regolare sia la cronologia di input che la generazione di output. Le valutazioni su MuST-C in 8 lingue dimostrano che SimulU raggiunge un compromesso qualità-latenza migliore o comparabile rispetto a forti modelli a cascata. Eliminando la necessità di un addestramento ad hoc, SimulU offre una strada promettente per la SimulS2S end-to-end in scenari realistici e di lungo formato.

English

Simultaneous speech-to-speech translation (SimulS2S) is essential for real-time multilingual communication, with increasing integration into meeting and streaming platforms. Despite this, SimulS2S remains underexplored in research, where current solutions often rely on resource-intensive training procedures and operate on short-form, pre-segmented utterances, failing to generalize to continuous speech. To bridge this gap, we propose SimulU, the first training-free policy for long-form SimulS2S. SimulU adopts history management and speech output selection strategies that exploit cross-attention in pre-trained end-to-end models to regulate both input history and output generation. Evaluations on MuST-C across 8 languages show that SimulU achieves a better or comparable quality-latency trade-off against strong cascaded models. By eliminating the need for ad-hoc training, SimulU offers a promising path to end-to-end SimulS2S in realistic, long-form scenarios.

SimulU: Strategia senza Addestramento per la Traduzione Simultanea Discorso-Discorso in Formato Esteso

SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

Abstract

Support