Het ontketenen van LLM-mogelijkheden in full-duplex spraakmodellen

Samenvatting

Op spraak gebaseerde grote taalmodellen zijn doorgaans beperkt tot gesproken antwoorden, wat hun gebruikersgerichte outputs beperkt tot wat verbaal kan worden uitgedrukt en onderdrukt tekst-native mogelijkheden zoals codegeneratie, gestructureerde analyse en meerstapsredenering in realtime interactie, voor taken die persistente, gestructureerde en inspecteerbare tussentijdse outputs vereisen. Bestaand werk verbetert gesproken redeneren of full-duplex beurtwisseling, maar behandelt tekst nog steeds als een verborgen tussentoestand of een ondergeschikte modaliteit in plaats van een eersteklas outputkanaal. Wij stellen Listen-Write-Speak (LWS) voor, een tekst-eerst driekanaals paradigma waarin een enkel autoregressief LLM continu naar gebruikersaudio luistert, zichtbare vrije-vorm tekst schrijft als primaire output, en parallel een realtime mondeling antwoord spreekt onder een gedeelde causale aandachtcontext. Dit gedrag wordt volledig geïmplementeerd via een Token Schema, zonder architecturale aanpassingen, en aangeleerd via een tweetraps data-pijplijn die per seconde cognitieve annotaties synthetiseert die consistent zijn met de onthulde invoertijdlijn. Empirisch toont LWS sterke full-duplex interactie aan op Full-Duplex-Bench, bereikt 4,72 op VoiceBench AlpacaEval, behaalt 92,6% schrijf-spreek consistentie, en presteert consequent beter dan zijn interne ablatie-experimenten op URO-Bench. Deze resultaten suggereren dat zichtbaar schrijven kan dienen als een eersteklas outputkanaal voor spraakinteractie zonder realtime responsiviteit op te offeren. De code en dataset zijn beschikbaar op de projectpagina: https://royalzhang.com/project/lws-page/.

English

Speech-based large language models are typically constrained to spoken replies, which limits their user-facing outputs to what can be verbalized and suppresses text-native capabilities such as code generation, structured analysis, and multi-step reasoning in realtime interaction, for tasks that require persistent, structured, and inspectable intermediate outputs. Existing work improves spoken reasoning or full-duplex turn-taking, but still treats text as a hidden intermediate state or a subordinate modality rather than a first-class output channel. We propose Listen-Write-Speak (LWS), a text-first tri-channel paradigm in which a single autoregressive LLM continuously listens to user audio, writes visible free-form text as its primary output, and speaks a realtime oral response in parallel under a shared causal attention context. This behavior is implemented entirely through a Token Schema, requiring no architectural modifications, and learned via a two-stage data pipeline that synthesizes per-second cognitive annotations consistent with the revealed input timeline. Empirically, LWS demonstrates strong full-duplex interaction on Full-Duplex-Bench, reaches 4.72 on VoiceBench AlpacaEval, achieves 92.6% writing-speaking consistency, and consistently outperforms its internal ablations on URO-Bench. These results suggest that visible writing can serve as a first-class output channel for speech interaction without sacrificing realtime responsiveness. The code and dataset are available on the project page: https://royalzhang.com/project/lws-page/.