Débloquer les capacités des LLM dans les modèles de parole full-duplex

Résumé

Les grands modèles de langage basés sur la parole sont généralement limités à des réponses orales, ce qui restreint leurs sorties accessibles à l'utilisateur à ce qui peut être verbalisé et supprime les capacités natives du texte, telles que la génération de code, l'analyse structurée et le raisonnement multi-étapes en interaction temps réel, pour des tâches nécessitant des sorties intermédiaires persistantes, structurées et inspectables. Les travaux existants améliorent le raisonnement oral ou la prise de tour en full-duplex, mais considèrent toujours le texte comme un état intermédiaire caché ou une modalité subordonnée plutôt qu'un canal de sortie de première classe. Nous proposons Listen-Write-Speak (LWS), un paradigme à trois canaux axé sur le texte dans lequel un unique LLM autorégressif écoute en continu l'audio utilisateur, écrit un texte libre visible comme sortie principale, et produit en parallèle une réponse orale en temps réel sous un contexte d'attention causal partagé. Ce comportement est entièrement implémenté via un Schéma de Jetons, ne nécessitant aucune modification architecturale, et appris via un pipeline de données en deux étapes qui synthétise des annotations cognitives par seconde cohérentes avec la chronologie des entrées révélées. Empiriquement, LWS démontre une forte interaction full-duplex sur Full-Duplex-Bench, atteint 4,72 sur VoiceBench AlpacaEval, obtient 92,6 % de cohérence écriture-parole, et surpasse systématiquement ses ablations internes sur URO-Bench. Ces résultats suggèrent que l'écriture visible peut servir de canal de sortie de première classe pour l'interaction vocale sans sacrifier la réactivité en temps réel. Le code et l'ensemble de données sont disponibles sur la page du projet : https://royalzhang.com/project/lws-page/.

English

Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verbalized and suppresses text-native capabilities such as code generation, structured analysis, and multi-step reasoning in realtime interaction, for tasks that require persistent, structured, and inspectable intermediate outputs. Existing work improves spoken reasoning or full-duplex turn-taking, but still treats text as a hidden intermediate state or a subordinate modality rather than a first-class output channel. We propose Listen-Write-Speak (LWS), a text-first tri-channel paradigm in which a single autoregressive LLM continuously listens to user audio, writes visible free-form text as its primary output, and speaks a realtime oral response in parallel under a shared causal attention context. This behavior is implemented entirely through a Token Schema, requiring no architectural modifications, and learned via a two-stage data pipeline that synthesizes per-second cognitive annotations consistent with the revealed input timeline. Empirically, LWS demonstrates strong full-duplex interaction on Full-Duplex-Bench, reaches 4.72 on VoiceBench AlpacaEval, achieves 92.6% writing-speaking consistency, and consistently outperforms its internal ablations on URO-Bench. These results suggest that visible writing can serve as a first-class output channel for speech interaction without sacrificing realtime responsiveness. The code and dataset are available on the project page: https://royalzhang.com/project/lws-page/.