ChatPaper.aiChatPaper

AsyncVoice Agent: Echtzeit-Erklärung für LLM-Planung und -Argumentation

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

October 17, 2025
papers.authors: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen
cs.AI

papers.abstract

Eine effektive Zusammenarbeit zwischen Mensch und KI bei komplexen Denkaufgaben erfordert, dass Nutzer den Prozess des Modells verstehen und damit interagieren können, anstatt lediglich ein Ergebnis zu erhalten. Der monolithische Text von Methoden wie Chain-of-Thought (CoT) verhindert dies jedoch, da aktuelle Schnittstellen keine Echtzeit-Verbalisierung und robuste Unterbrechungsmöglichkeiten durch den Nutzer bieten. Wir stellen AsyncVoice Agent vor, ein System, dessen asynchrone Architektur ein streamendes LLM-Backend von einer konversationellen Sprachschnittstelle entkoppelt. Dieser Entwurf ermöglicht es, dass Erzählung und Inferenz parallel ablaufen, wodurch Nutzer in der Lage sind, den Denkprozess des Modells jederzeit zu unterbrechen, abzufragen und zu steuern. Objektive Benchmarks zeigen, dass dieser Ansatz die Interaktionslatenz im Vergleich zu monolithischen Baselines um mehr als das 600-fache reduziert, während gleichzeitig hohe Genauigkeit und wettbewerbsfähige Aufgabenpräzision gewährleistet werden. Indem AsyncVoice Agent einen bidirektionalen Dialog mit dem Denkprozess eines Modells ermöglicht, bietet es ein neues Paradigma für den Aufbau effektiverer, steuerbarer und vertrauenswürdiger Mensch-KI-Systeme für hochriskante Aufgaben.
English
Effective human-AI collaboration on complex reasoning tasks requires that users understand and interact with the model's process, not just receive an output. However, the monolithic text from methods like Chain-of-Thought (CoT) prevents this, as current interfaces lack real-time verbalization and robust user barge-in. We present AsyncVoice Agent, a system whose asynchronous architecture decouples a streaming LLM backend from a conversational voice frontend. This design allows narration and inference to run in parallel, empowering users to interrupt, query, and steer the model's reasoning process at any time. Objective benchmarks show this approach reduces interaction latency by more than 600x compared to monolithic baselines while ensuring high fidelity and competitive task accuracy. By enabling a two-way dialogue with a model's thought process, AsyncVoice Agent offers a new paradigm for building more effective, steerable, and trustworthy human-AI systems for high-stakes tasks.
PDF12October 21, 2025