AsyncVoice Agent : Explication en temps réel pour la planification et le raisonnement des LLM
AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning
October 17, 2025
papers.authors: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen
cs.AI
papers.abstract
Une collaboration efficace entre humains et IA sur des tâches de raisonnement complexe nécessite que les utilisateurs comprennent et interagissent avec le processus du modèle, et non pas qu'ils reçoivent simplement un résultat. Cependant, le texte monolithique produit par des méthodes comme la Chaîne de Pensée (Chain-of-Thought, CoT) empêche cela, car les interfaces actuelles manquent de verbalisation en temps réel et d'une capacité robuste d'interruption par l'utilisateur. Nous présentons AsyncVoice Agent, un système dont l'architecture asynchrone découple un backend de modèle de langage en streaming d'une interface vocale conversationnelle. Cette conception permet à la narration et à l'inférence de s'exécuter en parallèle, donnant aux utilisateurs la possibilité d'interrompre, d'interroger et de guider le processus de raisonnement du modèle à tout moment. Des benchmarks objectifs montrent que cette approche réduit la latence d'interaction de plus de 600 fois par rapport aux bases de référence monolithiques, tout en garantissant une haute fidélité et une précision compétitive des tâches. En permettant un dialogue bidirectionnel avec le processus de pensée d'un modèle, AsyncVoice Agent propose un nouveau paradigme pour construire des systèmes humains-IA plus efficaces, pilotables et dignes de confiance pour des tâches à enjeux élevés.
English
Effective human-AI collaboration on complex reasoning tasks requires that
users understand and interact with the model's process, not just receive an
output. However, the monolithic text from methods like Chain-of-Thought (CoT)
prevents this, as current interfaces lack real-time verbalization and robust
user barge-in. We present AsyncVoice Agent, a system whose asynchronous
architecture decouples a streaming LLM backend from a conversational voice
frontend. This design allows narration and inference to run in parallel,
empowering users to interrupt, query, and steer the model's reasoning process
at any time. Objective benchmarks show this approach reduces interaction
latency by more than 600x compared to monolithic baselines while ensuring high
fidelity and competitive task accuracy. By enabling a two-way dialogue with a
model's thought process, AsyncVoice Agent offers a new paradigm for building
more effective, steerable, and trustworthy human-AI systems for high-stakes
tasks.