SimulU: Política sem Treinamento para Tradução Simultânea Longa de Fala para Fala
SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation
March 11, 2026
Autores: Amirbek Djanibekov, Luisa Bentivogli, Matteo Negri, Sara Papi
cs.AI
Resumo
A tradução simultânea de fala para fala (SimulS2S) é essencial para a comunicação multilingue em tempo real, com uma integração crescente em plataformas de reuniões e streaming. Apesar disso, a SimulS2S permanece pouco explorada na investigação, onde as soluções atuais frequentemente dependem de procedimentos de treino intensivos em recursos e operam em enunciados curtos e pré-segmentados, não conseguindo generalizar para a fala contínua. Para colmatar esta lacuna, propomos o SimulU, a primeira política sem necessidade de treino para SimulS2S de longa duração. O SimulU adota estratégias de gestão de histórico e seleção de saída de fala que exploram a atenção cruzada em modelos pré-treinados de ponta a ponta para regular tanto o histórico de entrada como a geração de saída. As avaliações no MuST-C em 8 idiomas mostram que o SimulU alcança um equilíbrio qualidade-latência melhor ou comparável face a fortes modelos em cascata. Ao eliminar a necessidade de treino específico, o SimulU oferece um caminho promissor para a SimulS2S de ponta a ponta em cenários realistas e de longa duração.
English
Simultaneous speech-to-speech translation (SimulS2S) is essential for real-time multilingual communication, with increasing integration into meeting and streaming platforms. Despite this, SimulS2S remains underexplored in research, where current solutions often rely on resource-intensive training procedures and operate on short-form, pre-segmented utterances, failing to generalize to continuous speech. To bridge this gap, we propose SimulU, the first training-free policy for long-form SimulS2S. SimulU adopts history management and speech output selection strategies that exploit cross-attention in pre-trained end-to-end models to regulate both input history and output generation. Evaluations on MuST-C across 8 languages show that SimulU achieves a better or comparable quality-latency trade-off against strong cascaded models. By eliminating the need for ad-hoc training, SimulU offers a promising path to end-to-end SimulS2S in realistic, long-form scenarios.