Freisetzen der LLM-Fähigkeiten in Vollduplex-Sprachmodellen

Zusammenfassung

Sprachbasierte große Sprachmodelle sind in der Regel auf gesprochene Antworten beschränkt, was ihre ausgabeseitigen Fähigkeiten auf das verbalisierbare reduziert und textnative Fähigkeiten wie Codegenerierung, strukturierte Analyse und mehrstufiges Denken in Echtzeitinteraktionen unterdrückt – für Aufgaben, die persistente, strukturierte und überprüfbare Zwischenergebnisse erfordern. Bisherige Arbeiten verbessern das gesprochene Denken oder den Vollduplex-Gesprächswechsel, behandeln Text jedoch weiterhin als verborgenen Zwischenzustand oder untergeordnete Modalität statt als erstklassigen Ausgabekanal. Wir schlagen Hören-Schreiben-Sprechen (LWS) vor, ein textorientiertes Dreikanal-Paradigma, bei dem ein einzelnes autoregressives LLM kontinuierlich Benutzeraudio hört, sichtbaren Freitext als primäre Ausgabe schreibt und parallel dazu eine Echtzeit-Sprachantwort unter einem gemeinsamen kausalen Aufmerksamkeitskontext spricht. Dieses Verhalten wird vollständig durch ein Token-Schema umgesetzt, ohne architektonische Änderungen, und über eine zweistufige Datenpipeline erlernt, die sekündliche kognitive Annotationen synthetisiert, die mit dem offengelegten Eingabezeitstrahl konsistent sind. Empirisch zeigt LWS eine starke Vollduplex-Interaktion auf Full-Duplex-Bench, erreicht 4,72 auf VoiceBench AlpacaEval, erzielt 92,6 % Schreib-Sprech-Konsistenz und übertrifft durchgängig seine internen Ablationen auf URO-Bench. Diese Ergebnisse deuten darauf hin, dass sichtbares Schreiben als erstklassiger Ausgabekanal für Sprachinteraktion dienen kann, ohne die Echtzeit-Reaktionsfähigkeit zu opfern. Der Code und der Datensatz sind auf der Projektseite verfügbar: https://royalzhang.com/project/lws-page/.

English

Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verbalized and suppresses text-native capabilities such as code generation, structured analysis, and multi-step reasoning in realtime interaction, for tasks that require persistent, structured, and inspectable intermediate outputs. Existing work improves spoken reasoning or full-duplex turn-taking, but still treats text as a hidden intermediate state or a subordinate modality rather than a first-class output channel. We propose Listen-Write-Speak (LWS), a text-first tri-channel paradigm in which a single autoregressive LLM continuously listens to user audio, writes visible free-form text as its primary output, and speaks a realtime oral response in parallel under a shared causal attention context. This behavior is implemented entirely through a Token Schema, requiring no architectural modifications, and learned via a two-stage data pipeline that synthesizes per-second cognitive annotations consistent with the revealed input timeline. Empirically, LWS demonstrates strong full-duplex interaction on Full-Duplex-Bench, reaches 4.72 on VoiceBench AlpacaEval, achieves 92.6% writing-speaking consistency, and consistently outperforms its internal ablations on URO-Bench. These results suggest that visible writing can serve as a first-class output channel for speech interaction without sacrificing realtime responsiveness. The code and dataset are available on the project page: https://royalzhang.com/project/lws-page/.