ChatPaper.aiChatPaper

SimulU: Trainingsvrije strategie voor langdurige simultane spraak-naar-spraakvertaling

SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

March 11, 2026
Auteurs: Amirbek Djanibekov, Luisa Bentivogli, Matteo Negri, Sara Papi
cs.AI

Samenvatting

Simultane spraak-naar-spraakvertaling (SimulS2S) is essentieel voor realtime meertalige communicatie en wordt steeds vaker geïntegreerd in vergader- en streamingplatforms. Desondanks blijft SimulS2S onderbelicht in onderzoek, waarbij huidige oplossingen vaak steunen op resource-intensieve trainingsprocedures en werken op korte, vooraf gesegmenteerde uitingen, wat generalisatie naar continue spraak verhindert. Om deze kloof te overbruggen, stellen wij SimulU voor, het eerste trainingsvrije beleid voor lange-vorm SimulS2S. SimulU hanteert geschiedenisbeheer- en spraakuitvoerselectiestrategieën die cross-attentie in voorgetrainde end-to-end-modellen benutten om zowel invoergeschiedenis als uitvoergeneratie te reguleren. Evaluaties op MuST-C in 8 talen tonen aan dat SimulU een betere of vergelijkbare kwaliteit-latentiebalans bereikt ten opzichte van sterke gecascadeerde modellen. Door de behoefte aan ad-hoc training te elimineren, biedt SimulU een veelbelovend pad naar end-to-end SimulS2S in realistische, lange-vorm scenario's.
English
Simultaneous speech-to-speech translation (SimulS2S) is essential for real-time multilingual communication, with increasing integration into meeting and streaming platforms. Despite this, SimulS2S remains underexplored in research, where current solutions often rely on resource-intensive training procedures and operate on short-form, pre-segmented utterances, failing to generalize to continuous speech. To bridge this gap, we propose SimulU, the first training-free policy for long-form SimulS2S. SimulU adopts history management and speech output selection strategies that exploit cross-attention in pre-trained end-to-end models to regulate both input history and output generation. Evaluations on MuST-C across 8 languages show that SimulU achieves a better or comparable quality-latency trade-off against strong cascaded models. By eliminating the need for ad-hoc training, SimulU offers a promising path to end-to-end SimulS2S in realistic, long-form scenarios.
PDF152March 23, 2026