AsyncVoice Agent: Explicação em Tempo Real para Planejamento e Raciocínio de LLM

Resumo

A colaboração eficaz entre humanos e IA em tarefas complexas de raciocínio exige que os usuários compreendam e interajam com o processo do modelo, e não apenas recebam um resultado. No entanto, o texto monolítico de métodos como Chain-of-Thought (CoT) impede isso, pois as interfaces atuais carecem de verbalização em tempo real e de uma interrupção robusta por parte do usuário. Apresentamos o AsyncVoice Agent, um sistema cuja arquitetura assíncrona desacopla um backend de LLM em streaming de um frontend de voz conversacional. Esse design permite que a narração e a inferência ocorram em paralelo, capacitando os usuários a interromper, questionar e direcionar o processo de raciocínio do modelo a qualquer momento. Benchmarks objetivos mostram que essa abordagem reduz a latência de interação em mais de 600x em comparação com baselines monolíticas, garantindo alta fidelidade e precisão competitiva nas tarefas. Ao permitir um diálogo bidirecional com o processo de pensamento de um modelo, o AsyncVoice Agent oferece um novo paradigma para a construção de sistemas humano-IA mais eficazes, direcionáveis e confiáveis para tarefas de alto impacto.

English

Effective human-AI collaboration on complex reasoning tasks requires that users understand and interact with the model's process, not just receive an output. However, the monolithic text from methods like Chain-of-Thought (CoT) prevents this, as current interfaces lack real-time verbalization and robust user barge-in. We present AsyncVoice Agent, a system whose asynchronous architecture decouples a streaming LLM backend from a conversational voice frontend. This design allows narration and inference to run in parallel, empowering users to interrupt, query, and steer the model's reasoning process at any time. Objective benchmarks show this approach reduces interaction latency by more than 600x compared to monolithic baselines while ensuring high fidelity and competitive task accuracy. By enabling a two-way dialogue with a model's thought process, AsyncVoice Agent offers a new paradigm for building more effective, steerable, and trustworthy human-AI systems for high-stakes tasks.

AsyncVoice Agent: Explicação em Tempo Real para Planejamento e Raciocínio de LLM

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

Resumo

Support