Voxtral Realtime

Аннотация

Мы представляем Voxtral Realtime — нативно потоковую модель автоматического распознавания речи, которая обеспечивает качество транскрипции на уровне офлайн-моделей при задержке менее секунды. В отличие от подходов, адаптирующих офлайн-модели через чанкинг или скользящие окна, Voxtral Realtime обучается end-to-end для потоковой обработки с явным выравниванием аудио- и текстовых потоков. Наша архитектура построена на основе фреймворка Delayed Streams Modeling и включает новый каузальный аудиоэнкодер, а также Ada RMS-Norm для улучшенного управления задержкой. Мы масштабировали предварительное обучение на крупный датасет, охватывающий 13 языков. При задержке в 480 мс Voxtral Realtime демонстрирует производительность, сопоставимую с Whisper — наиболее широко используемой офлайн-системой транскрипции. Веса модели опубликованы под лицензией Apache 2.0.

English

We introduce Voxtral Realtime, a natively streaming automatic speech recognition model that matches offline transcription quality at sub-second latency. Unlike approaches that adapt offline models through chunking or sliding windows, Voxtral Realtime is trained end-to-end for streaming, with explicit alignment between audio and text streams. Our architecture builds on the Delayed Streams Modeling framework, introducing a new causal audio encoder and Ada RMS-Norm for improved delay conditioning. We scale pretraining to a large-scale dataset spanning 13 languages. At a delay of 480ms, Voxtral Realtime achieves performance on par with Whisper, the most widely deployed offline transcription system. We release the model weights under the Apache 2.0 license.