Liberando as Capacidades de LLM em Modelos de Fala Full-Duplex

Resumo

Modelos de linguagem de grande escala baseados em fala são tipicamente restritos a respostas faladas, o que limita suas saídas voltadas ao usuário ao que pode ser verbalizado e suprime capacidades nativas de texto, como geração de código, análise estruturada e raciocínio em múltiplas etapas em interação em tempo real, para tarefas que exigem saídas intermediárias persistentes, estruturadas e inspecionáveis. Trabalhos existentes melhoram o raciocínio falado ou a alternância de turnos full-duplex, mas ainda tratam o texto como um estado intermediário oculto ou uma modalidade subordinada, em vez de um canal de saída de primeira classe. Propomos o Listen-Write-Speak (LWS), um paradigma de três canais com prioridade textual em que um único LLM autoregressivo ouve continuamente o áudio do usuário, escreve texto visível de forma livre como sua saída principal e fala uma resposta oral em tempo real em paralelo sob um contexto de atenção causal compartilhado. Esse comportamento é implementado inteiramente por meio de um Esquema de Token, sem exigir modificações arquitetônicas, e aprendido via um pipeline de dados de dois estágios que sintetiza anotações cognitivas por segundo consistentes com a linha do tempo de entrada revelada. Empiricamente, o LWS demonstra forte interação full-duplex no Full-Duplex-Bench, alcança 4,72 no VoiceBench AlpacaEval, obtém 92,6% de consistência escrita-fala e supera consistentemente suas ablações internas no URO-Bench. Esses resultados sugerem que a escrita visível pode servir como um canal de saída de primeira classe para interação por fala sem sacrificar a capacidade de resposta em tempo real. O código e o conjunto de dados estão disponíveis na página do projeto: https://royalzhang.com/project/lws-page/.

English

Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verbalized and suppresses text-native capabilities such as code generation, structured analysis, and multi-step reasoning in realtime interaction, for tasks that require persistent, structured, and inspectable intermediate outputs. Existing work improves spoken reasoning or full-duplex turn-taking, but still treats text as a hidden intermediate state or a subordinate modality rather than a first-class output channel. We propose Listen-Write-Speak (LWS), a text-first tri-channel paradigm in which a single autoregressive LLM continuously listens to user audio, writes visible free-form text as its primary output, and speaks a realtime oral response in parallel under a shared causal attention context. This behavior is implemented entirely through a Token Schema, requiring no architectural modifications, and learned via a two-stage data pipeline that synthesizes per-second cognitive annotations consistent with the revealed input timeline. Empirically, LWS demonstrates strong full-duplex interaction on Full-Duplex-Bench, reaches 4.72 on VoiceBench AlpacaEval, achieves 92.6% writing-speaking consistency, and consistently outperforms its internal ablations on URO-Bench. These results suggest that visible writing can serve as a first-class output channel for speech interaction without sacrificing realtime responsiveness. The code and dataset are available on the project page: https://royalzhang.com/project/lws-page/.