SimulU: Política sin Entrenamiento para la Traducción Simultánea de Voz a Voz de Forma Extendida

Resumen

La traducción simultánea de voz a voz (SimulS2S) es fundamental para la comunicación multilingüe en tiempo real, con una integración creciente en plataformas de reuniones y transmisión. A pesar de esto, la SimulS2S sigue siendo poco explorada en la investigación, donde las soluciones actuales a menudo dependen de procedimientos de entrenamiento intensivos en recursos y operan con enunciados cortos y pre-segmentados, sin lograr generalizarse al habla continua. Para cerrar esta brecha, proponemos SimulU, la primera política libre de entrenamiento para SimulS2S de formato largo. SimulU adopta estrategias de gestión del historial y selección de salida de voz que aprovechan la atención cruzada en modelos de extremo a extremo preentrenados para regular tanto el historial de entrada como la generación de salida. Las evaluaciones en MuST-C en 8 idiomas muestran que SimulU logra un equilibrio calidad-latencia igual o mejor frente a fuertes modelos en cascada. Al eliminar la necesidad de entrenamiento específico, SimulU ofrece un camino prometedor hacia la SimulS2S de extremo a extremo en escenarios realistas y de formato largo.

English

Simultaneous speech-to-speech translation (SimulS2S) is essential for real-time multilingual communication, with increasing integration into meeting and streaming platforms. Despite this, SimulS2S remains underexplored in research, where current solutions often rely on resource-intensive training procedures and operate on short-form, pre-segmented utterances, failing to generalize to continuous speech. To bridge this gap, we propose SimulU, the first training-free policy for long-form SimulS2S. SimulU adopts history management and speech output selection strategies that exploit cross-attention in pre-trained end-to-end models to regulate both input history and output generation. Evaluations on MuST-C across 8 languages show that SimulU achieves a better or comparable quality-latency trade-off against strong cascaded models. By eliminating the need for ad-hoc training, SimulU offers a promising path to end-to-end SimulS2S in realistic, long-form scenarios.

SimulU: Política sin Entrenamiento para la Traducción Simultánea de Voz a Voz de Forma Extendida

SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

Resumen

Support