ChatPaper.aiChatPaper

AsyncVoice 에이전트: LLM 계획 및 추론을 위한 실시간 설명

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

October 17, 2025
저자: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen
cs.AI

초록

복잡한 추론 작업에서 효과적인 인간-AI 협업은 사용자가 단순히 결과를 받아들이는 것이 아니라 모델의 프로세스를 이해하고 상호작용할 것을 요구합니다. 그러나 Chain-of-Thought(CoT)와 같은 방법론에서 생성되는 단일 텍스트는 실시간 음성화와 강력한 사용자 중단 기능이 부족한 현재의 인터페이스로 인해 이를 방해합니다. 우리는 AsyncVoice Agent를 제안합니다. 이 시스템은 비동기적 아키텍처를 통해 스트리밍 LLM 백엔드와 대화형 음성 프론트엔드를 분리합니다. 이러한 설계는 내레이션과 추론을 병렬로 실행할 수 있게 하여, 사용자가 언제든지 모델의 추론 과정을 중단하고 질문하며 조정할 수 있도록 합니다. 객관적인 벤치마크는 이 접근 방식이 단일 구조의 기준선에 비해 상호작용 지연 시간을 600배 이상 줄이면서도 높은 충실도와 경쟁력 있는 작업 정확도를 보장함을 나타냅니다. 모델의 사고 과정과 양방향 대화를 가능하게 함으로써, AsyncVoice Agent는 고위험 작업을 위한 더 효과적이고 조정 가능하며 신뢰할 수 있는 인간-AI 시스템을 구축하는 새로운 패러다임을 제시합니다.
English
Effective human-AI collaboration on complex reasoning tasks requires that users understand and interact with the model's process, not just receive an output. However, the monolithic text from methods like Chain-of-Thought (CoT) prevents this, as current interfaces lack real-time verbalization and robust user barge-in. We present AsyncVoice Agent, a system whose asynchronous architecture decouples a streaming LLM backend from a conversational voice frontend. This design allows narration and inference to run in parallel, empowering users to interrupt, query, and steer the model's reasoning process at any time. Objective benchmarks show this approach reduces interaction latency by more than 600x compared to monolithic baselines while ensuring high fidelity and competitive task accuracy. By enabling a two-way dialogue with a model's thought process, AsyncVoice Agent offers a new paradigm for building more effective, steerable, and trustworthy human-AI systems for high-stakes tasks.
PDF12October 21, 2025