ChatPaper.aiChatPaper

AsyncVoiceエージェント:LLMの計画と推論のためのリアルタイム説明

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

October 17, 2025
著者: Yueqian Lin, Zhengmian Hu, Jayakumar Subramanian, Qinsi Wang, Nikos Vlassis, Hai "Helen" Li, Yiran Chen
cs.AI

要旨

複雑な推論タスクにおける人間とAIの効果的な協働には、ユーザーがモデルのプロセスを理解し、それと対話することが必要であり、単に出力を受け取るだけでは不十分である。しかし、Chain-of-Thought(CoT)のような手法から得られる単一のテキストは、現在のインターフェースがリアルタイムの言語化と堅牢なユーザー割り込みを欠いているため、これを妨げている。本論文では、AsyncVoice Agentを紹介する。このシステムは、非同期アーキテクチャを採用し、ストリーミングLLMバックエンドと会話型音声フロントエンドを分離している。この設計により、ナレーションと推論が並行して実行され、ユーザーはモデルの推論プロセスをいつでも中断し、質問し、方向付けることができる。客観的なベンチマークによると、このアプローチは単一のベースラインと比較してインタラクションの遅延を600倍以上削減しつつ、高い忠実性と競争力のあるタスク精度を確保している。モデルの思考プロセスとの双方向対話を可能にすることで、AsyncVoice Agentは、高リスクタスクにおいてより効果的で制御可能かつ信頼性の高い人間-AIシステムを構築するための新たなパラダイムを提供する。
English
Effective human-AI collaboration on complex reasoning tasks requires that users understand and interact with the model's process, not just receive an output. However, the monolithic text from methods like Chain-of-Thought (CoT) prevents this, as current interfaces lack real-time verbalization and robust user barge-in. We present AsyncVoice Agent, a system whose asynchronous architecture decouples a streaming LLM backend from a conversational voice frontend. This design allows narration and inference to run in parallel, empowering users to interrupt, query, and steer the model's reasoning process at any time. Objective benchmarks show this approach reduces interaction latency by more than 600x compared to monolithic baselines while ensuring high fidelity and competitive task accuracy. By enabling a two-way dialogue with a model's thought process, AsyncVoice Agent offers a new paradigm for building more effective, steerable, and trustworthy human-AI systems for high-stakes tasks.
PDF12October 21, 2025