ChatPaper.aiChatPaper

AsyncVoice Agent: Spiegazione in Tempo Reale per la Pianificazione e il Ragionamento dei Modelli Linguistici di Grande Dimensione

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

October 17, 2025
Autori: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen
cs.AI

Abstract

Una collaborazione efficace tra esseri umani e IA su compiti di ragionamento complessi richiede che gli utenti comprendano e interagiscano con il processo del modello, non si limitino a ricevere un output. Tuttavia, il testo monolitico generato da metodi come la Catena di Pensiero (Chain-of-Thought, CoT) impedisce ciò, poiché le interfacce attuali mancano di verbalizzazione in tempo reale e di un robusto meccanismo di interruzione da parte dell'utente. Presentiamo AsyncVoice Agent, un sistema la cui architettura asincrona disaccoppia un backend LLM in streaming da un frontend vocale conversazionale. Questo design consente alla narrazione e all'inferenza di funzionare in parallelo, permettendo agli utenti di interrompere, interrogare e guidare il processo di ragionamento del modello in qualsiasi momento. Benchmark oggettivi dimostrano che questo approccio riduce la latenza di interazione di oltre 600 volte rispetto alle baseline monolitiche, garantendo al contempo alta fedeltà e precisione competitiva nei compiti. Abilitando un dialogo bidirezionale con il processo di pensiero di un modello, AsyncVoice Agent offre un nuovo paradigma per costruire sistemi uomo-IA più efficaci, guidabili e affidabili per compiti ad alto rischio.
English
Effective human-AI collaboration on complex reasoning tasks requires that users understand and interact with the model's process, not just receive an output. However, the monolithic text from methods like Chain-of-Thought (CoT) prevents this, as current interfaces lack real-time verbalization and robust user barge-in. We present AsyncVoice Agent, a system whose asynchronous architecture decouples a streaming LLM backend from a conversational voice frontend. This design allows narration and inference to run in parallel, empowering users to interrupt, query, and steer the model's reasoning process at any time. Objective benchmarks show this approach reduces interaction latency by more than 600x compared to monolithic baselines while ensuring high fidelity and competitive task accuracy. By enabling a two-way dialogue with a model's thought process, AsyncVoice Agent offers a new paradigm for building more effective, steerable, and trustworthy human-AI systems for high-stakes tasks.
PDF12October 21, 2025