AsyncVoice Agent: Real-time Uitleg voor LLM Planning en Redeneren
AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning
October 17, 2025
Auteurs: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen
cs.AI
Samenvatting
Effectieve samenwerking tussen mens en AI bij complexe redeneertaken vereist dat gebruikers het proces van het model begrijpen en ermee kunnen interacteren, in plaats van alleen een uitvoer te ontvangen. Het monolithische tekstformaat van methoden zoals Chain-of-Thought (CoT) belemmert dit echter, omdat huidige interfaces geen real-time verbalisatie en robuuste onderbrekingsmogelijkheden voor gebruikers bieden. Wij presenteren AsyncVoice Agent, een systeem met een asynchrone architectuur die een streaming LLM-backend ontkoppelt van een conversatiegerichte spraakfrontend. Dit ontwerp maakt het mogelijk om narratie en inferentie parallel uit te voeren, waardoor gebruikers op elk moment het redeneerproces van het model kunnen onderbreken, bevragen en sturen. Objectieve benchmarks tonen aan dat deze aanpak de interactielatentie met meer dan 600x vermindert in vergelijking met monolithische baselines, terwijl een hoge betrouwbaarheid en competitieve taaknauwkeurigheid worden gegarandeerd. Door een tweerichtingsdialoog met het denkproces van een model mogelijk te maken, biedt AsyncVoice Agent een nieuw paradigma voor het bouwen van effectievere, stuurbaardere en betrouwbaardere mens-AI-systemen voor hoogwaardige taken.
English
Effective human-AI collaboration on complex reasoning tasks requires that
users understand and interact with the model's process, not just receive an
output. However, the monolithic text from methods like Chain-of-Thought (CoT)
prevents this, as current interfaces lack real-time verbalization and robust
user barge-in. We present AsyncVoice Agent, a system whose asynchronous
architecture decouples a streaming LLM backend from a conversational voice
frontend. This design allows narration and inference to run in parallel,
empowering users to interrupt, query, and steer the model's reasoning process
at any time. Objective benchmarks show this approach reduces interaction
latency by more than 600x compared to monolithic baselines while ensuring high
fidelity and competitive task accuracy. By enabling a two-way dialogue with a
model's thought process, AsyncVoice Agent offers a new paradigm for building
more effective, steerable, and trustworthy human-AI systems for high-stakes
tasks.