Раскрытие возможностей LLM в полнодуплексных речевых моделях

Аннотация

Речевые большие языковые модели обычно ограничены голосовыми ответами, что сводит их пользовательские выходные данные лишь к тому, что можно произнести вслух, и подавляет текстово-ориентированные возможности, такие как генерация кода, структурированный анализ и многошаговые рассуждения в режиме реального времени, для задач, требующих постоянных, структурированных и проверяемых промежуточных результатов. Существующие работы улучшают речевые рассуждения или полнодуплексное переключение ролей, но по-прежнему рассматривают текст как скрытое промежуточное состояние или подчинённую модальность, а не как полноценный выходной канал. Мы предлагаем Listen-Write-Speak (LWS) — тексто-ориентированную трёхканальную парадигму, в которой одна авторегрессионная LLM непрерывно слушает аудио пользователя, записывает видимый свободный текст в качестве своего основного вывода и одновременно озвучивает ответ в реальном времени в рамках общего контекста каузального внимания. Это поведение реализуется исключительно через схему токенов, не требуя архитектурных изменений, и обучается с помощью двухэтапного конвейера данных, синтезирующего когнитивные аннотации на каждую секунду, согласованные с временной шкалой поступления входных данных. Эмпирически LWS демонстрирует сильное полнодуплексное взаимодействие на Full-Duplex-Bench, достигает 4,72 на VoiceBench AlpacaEval, показывает 92,6% согласованности между письмом и речью и стабильно превосходит свои внутренние абляции на URO-Bench. Эти результаты показывают, что видимая запись может служить полноценным выходным каналом для речевого взаимодействия без ущерба для оперативности в реальном времени. Код и набор данных доступны на странице проекта: https://royalzhang.com/project/lws-page/.

English

Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verbalized and suppresses text-native capabilities such as code generation, structured analysis, and multi-step reasoning in realtime interaction, for tasks that require persistent, structured, and inspectable intermediate outputs. Existing work improves spoken reasoning or full-duplex turn-taking, but still treats text as a hidden intermediate state or a subordinate modality rather than a first-class output channel. We propose Listen-Write-Speak (LWS), a text-first tri-channel paradigm in which a single autoregressive LLM continuously listens to user audio, writes visible free-form text as its primary output, and speaks a realtime oral response in parallel under a shared causal attention context. This behavior is implemented entirely through a Token Schema, requiring no architectural modifications, and learned via a two-stage data pipeline that synthesizes per-second cognitive annotations consistent with the revealed input timeline. Empirically, LWS demonstrates strong full-duplex interaction on Full-Duplex-Bench, reaches 4.72 on VoiceBench AlpacaEval, achieves 92.6% writing-speaking consistency, and consistently outperforms its internal ablations on URO-Bench. These results suggest that visible writing can serve as a first-class output channel for speech interaction without sacrificing realtime responsiveness. The code and dataset are available on the project page: https://royalzhang.com/project/lws-page/.