ChatPaper.aiChatPaper

Раскрытие возможностей LLM в полнодуплексных речевых моделях

Liberating LLM Capabilities in Full-Duplex Speech Models

May 4, 2026
Авторы: Luoyuan Zhang, Bokai Xu, Junbo Cui, Weiyue Sun, Yingjing Xu, Hanyu Liu, Yuan Yao
cs.AI

Аннотация

Речевые большие языковые модели обычно ограничены голосовыми ответами, что сводит их пользовательские выходные данные лишь к тому, что можно произнести вслух, и подавляет текстово-ориентированные возможности, такие как генерация кода, структурированный анализ и многошаговые рассуждения в режиме реального времени, для задач, требующих постоянных, структурированных и проверяемых промежуточных результатов. Существующие работы улучшают речевые рассуждения или полнодуплексное переключение ролей, но по-прежнему рассматривают текст как скрытое промежуточное состояние или подчинённую модальность, а не как полноценный выходной канал. Мы предлагаем Listen-Write-Speak (LWS) — тексто-ориентированную трёхканальную парадигму, в которой одна авторегрессионная LLM непрерывно слушает аудио пользователя, записывает видимый свободный текст в качестве своего основного вывода и одновременно озвучивает ответ в реальном времени в рамках общего контекста каузального внимания. Это поведение реализуется исключительно через схему токенов, не требуя архитектурных изменений, и обучается с помощью двухэтапного конвейера данных, синтезирующего когнитивные аннотации на каждую секунду, согласованные с временной шкалой поступления входных данных. Эмпирически LWS демонстрирует сильное полнодуплексное взаимодействие на Full-Duplex-Bench, достигает 4,72 на VoiceBench AlpacaEval, показывает 92,6% согласованности между письмом и речью и стабильно превосходит свои внутренние абляции на URO-Bench. Эти результаты показывают, что видимая запись может служить полноценным выходным каналом для речевого взаимодействия без ущерба для оперативности в реальном времени. Код и набор данных доступны на странице проекта: https://royalzhang.com/project/lws-page/.
English
Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verbalized and suppresses text-native capabilities such as code generation, structured analysis, and multi-step reasoning in realtime interaction, for tasks that require persistent, structured, and inspectable intermediate outputs. Existing work improves spoken reasoning or full-duplex turn-taking, but still treats text as a hidden intermediate state or a subordinate modality rather than a first-class output channel. We propose Listen-Write-Speak (LWS), a text-first tri-channel paradigm in which a single autoregressive LLM continuously listens to user audio, writes visible free-form text as its primary output, and speaks a realtime oral response in parallel under a shared causal attention context. This behavior is implemented entirely through a Token Schema, requiring no architectural modifications, and learned via a two-stage data pipeline that synthesizes per-second cognitive annotations consistent with the revealed input timeline. Empirically, LWS demonstrates strong full-duplex interaction on Full-Duplex-Bench, reaches 4.72 on VoiceBench AlpacaEval, achieves 92.6% writing-speaking consistency, and consistently outperforms its internal ablations on URO-Bench. These results suggest that visible writing can serve as a first-class output channel for speech interaction without sacrificing realtime responsiveness. The code and dataset are available on the project page: https://royalzhang.com/project/lws-page/.