Desbloqueando las capacidades de los LLM en modelos de habla full-dúplex

Resumen

Los modelos de lenguaje grandes basados en voz suelen limitarse a respuestas habladas, lo que restringe sus salidas orientadas al usuario a lo que puede verbalizarse y suprime capacidades nativas de texto, como la generación de código, el análisis estructurado y el razonamiento multi-paso en interacciones en tiempo real, para tareas que requieren salidas intermedias persistentes, estructuradas e inspeccionables. Los trabajos existentes mejoran el razonamiento hablado o la alternancia de turnos full-dúplex, pero aún tratan el texto como un estado intermedio oculto o una modalidad subordinada, en lugar de un canal de salida de primera clase. Proponemos Listen-Write-Speak (LWS), un paradigma de tres canales con prioridad de texto en el que un único LLM autorregresivo escucha continuamente el audio del usuario, escribe texto libre visible como su salida principal y habla una respuesta oral en tiempo real en paralelo, bajo un contexto de atención causal compartido. Este comportamiento se implementa enteramente a través de un Token Schema, sin requerir modificaciones arquitectónicas, y se aprende mediante un pipeline de datos en dos etapas que sintetiza anotaciones cognitivas por segundo, consistentes con la línea de tiempo de entrada revelada. Empíricamente, LWS demuestra una interacción full-dúplex robusta en Full-Duplex-Bench, alcanza 4.72 en VoiceBench AlpacaEval, logra un 92.6% de consistencia entre escritura y habla, y supera consistentemente a sus ablaciones internas en URO-Bench. Estos resultados sugieren que la escritura visible puede servir como un canal de salida de primera clase para la interacción por voz sin sacrificar la capacidad de respuesta en tiempo real. El código y el conjunto de datos están disponibles en la página del proyecto: https://royalzhang.com/project/lws-page/.

English

Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verbalized and suppresses text-native capabilities such as code generation, structured analysis, and multi-step reasoning in realtime interaction, for tasks that require persistent, structured, and inspectable intermediate outputs. Existing work improves spoken reasoning or full-duplex turn-taking, but still treats text as a hidden intermediate state or a subordinate modality rather than a first-class output channel. We propose Listen-Write-Speak (LWS), a text-first tri-channel paradigm in which a single autoregressive LLM continuously listens to user audio, writes visible free-form text as its primary output, and speaks a realtime oral response in parallel under a shared causal attention context. This behavior is implemented entirely through a Token Schema, requiring no architectural modifications, and learned via a two-stage data pipeline that synthesizes per-second cognitive annotations consistent with the revealed input timeline. Empirically, LWS demonstrates strong full-duplex interaction on Full-Duplex-Bench, reaches 4.72 on VoiceBench AlpacaEval, achieves 92.6% writing-speaking consistency, and consistently outperforms its internal ablations on URO-Bench. These results suggest that visible writing can serve as a first-class output channel for speech interaction without sacrificing realtime responsiveness. The code and dataset are available on the project page: https://royalzhang.com/project/lws-page/.