AsyncVoice Agent: Реальное время объяснений для планирования и рассуждений в крупных языковых моделях

Аннотация

Эффективное взаимодействие человека и ИИ в сложных задачах, требующих рассуждений, требует, чтобы пользователи понимали и взаимодействовали с процессом модели, а не просто получали результат. Однако монолитный текст, генерируемый методами вроде Chain-of-Thought (CoT), препятствует этому, поскольку современные интерфейсы не поддерживают реальное время озвучивания и надежное прерывание пользователем. Мы представляем AsyncVoice Agent — систему, чья асинхронная архитектура разделяет потоковый бэкенд на основе языковой модели и голосовой фронтенд для общения. Такая конструкция позволяет озвучиванию и логическому выводу выполняться параллельно, давая пользователям возможность прерывать, запрашивать и направлять процесс рассуждений модели в любой момент. Объективные тесты показывают, что этот подход снижает задержку взаимодействия более чем в 600 раз по сравнению с монолитными базовыми решениями, сохраняя высокую точность и конкурентоспособность в выполнении задач. Благодаря возможности двустороннего диалога с процессом мышления модели, AsyncVoice Agent предлагает новую парадигму для создания более эффективных, управляемых и надежных систем взаимодействия человека и ИИ для задач с высокими ставками.

English

Effective human-AI collaboration on complex reasoning tasks requires that users understand and interact with the model's process, not just receive an output. However, the monolithic text from methods like Chain-of-Thought (CoT) prevents this, as current interfaces lack real-time verbalization and robust user barge-in. We present AsyncVoice Agent, a system whose asynchronous architecture decouples a streaming LLM backend from a conversational voice frontend. This design allows narration and inference to run in parallel, empowering users to interrupt, query, and steer the model's reasoning process at any time. Objective benchmarks show this approach reduces interaction latency by more than 600x compared to monolithic baselines while ensuring high fidelity and competitive task accuracy. By enabling a two-way dialogue with a model's thought process, AsyncVoice Agent offers a new paradigm for building more effective, steerable, and trustworthy human-AI systems for high-stakes tasks.

AsyncVoice Agent: Реальное время объяснений для планирования и рассуждений в крупных языковых моделях

AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning

Аннотация

Support