ChatPaper.aiChatPaper

AsyncVoice Agent: Explicación en Tiempo Real para la Planificación y Razonamiento de Modelos de Lenguaje de Gran Escala

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

October 17, 2025
Autores: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen
cs.AI

Resumen

La colaboración efectiva entre humanos e IA en tareas de razonamiento complejo requiere que los usuarios comprendan e interactúen con el proceso del modelo, no solo que reciban un resultado. Sin embargo, el texto monolítico generado por métodos como Cadena de Pensamiento (CoT) impide esto, ya que las interfaces actuales carecen de verbalización en tiempo real y de una interrupción robusta por parte del usuario. Presentamos AsyncVoice Agent, un sistema cuya arquitectura asíncrona desacopla un backend de modelo de lenguaje en streaming de un frontend conversacional de voz. Este diseño permite que la narración y la inferencia se ejecuten en paralelo, capacitando a los usuarios para interrumpir, consultar y dirigir el proceso de razonamiento del modelo en cualquier momento. Los benchmarks objetivos muestran que este enfoque reduce la latencia de interacción en más de 600 veces en comparación con líneas base monolíticas, al mismo tiempo que garantiza una alta fidelidad y una precisión competitiva en las tareas. Al permitir un diálogo bidireccional con el proceso de pensamiento de un modelo, AsyncVoice Agent ofrece un nuevo paradigma para construir sistemas humano-IA más efectivos, dirigibles y confiables para tareas de alto riesgo.
English
Effective human-AI collaboration on complex reasoning tasks requires that users understand and interact with the model's process, not just receive an output. However, the monolithic text from methods like Chain-of-Thought (CoT) prevents this, as current interfaces lack real-time verbalization and robust user barge-in. We present AsyncVoice Agent, a system whose asynchronous architecture decouples a streaming LLM backend from a conversational voice frontend. This design allows narration and inference to run in parallel, empowering users to interrupt, query, and steer the model's reasoning process at any time. Objective benchmarks show this approach reduces interaction latency by more than 600x compared to monolithic baselines while ensuring high fidelity and competitive task accuracy. By enabling a two-way dialogue with a model's thought process, AsyncVoice Agent offers a new paradigm for building more effective, steerable, and trustworthy human-AI systems for high-stakes tasks.
PDF12October 21, 2025