Ask-to-Clarify: Устранение неоднозначности инструкций через многошаговый диалог
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue
September 18, 2025
Авторы: Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Аннотация
Конечная цель воплощенных агентов заключается в создании помощников, способных взаимодействовать с людьми, а не просто исполнителей, пассивно выполняющих инструкции. Это требует от агентов умения общаться, координировать и адаптировать свои действия на основе обратной связи от человека. В последнее время достижения в области визуально-языковых моделей (VLA) открыли путь к этой цели. Однако большинство современных воплощенных агентов на основе VLA работают в одностороннем режиме: они получают инструкцию и выполняют ее без обратной связи. Такой подход терпит неудачу в реальных сценариях, где инструкции часто бывают неоднозначными. В данной статье мы решаем эту проблему с помощью фреймворка Ask-to-Clarify. Наш фреймворк сначала устраняет неоднозначность инструкций, задавая вопросы в многоходовом диалоге, а затем генерирует низкоуровневые действия end-to-end. Конкретно, фреймворк Ask-to-Clarify состоит из двух компонентов: одного VLM для взаимодействия и одного диффузионного модуля для действий. Мы также вводим модуль связи, который генерирует условия для диффузии на основе выхода VLM. Этот модуль корректирует наблюдения в соответствии с инструкциями, чтобы создать надежные условия. Мы обучаем наш фреймворк с использованием двухэтапной стратегии изоляции знаний. Сначала мы дообучаем компонент взаимодействия на данных диалогов, решающих неоднозначности, чтобы справляться с ними. Затем мы интегрируем компонент действий, замораживая компонент взаимодействия. Это сохраняет способности к взаимодействию, одновременно дообучая диффузию для генерации действий. Стратегия обучения гарантирует, что наш фреймворк сначала задает вопросы, а затем генерирует действия. Во время вывода детектор сигналов действует как маршрутизатор, помогая нашему фреймворку переключаться между задаванием вопросов и выполнением действий. Мы оцениваем фреймворк Ask-to-Clarify на 8 реальных задачах, где он превосходит существующие передовые VLA. Результаты показывают, что предложенный нами фреймворк вместе с обучающей стратегией прокладывает путь к созданию воплощенных агентов, способных к сотрудничеству.
English
The ultimate goal of embodied agents is to create collaborators that can
interact with humans, not mere executors that passively follow instructions.
This requires agents to communicate, coordinate, and adapt their actions based
on human feedback. Recently, advances in VLAs have offered a path toward this
goal. However, most current VLA-based embodied agents operate in a one-way
mode: they receive an instruction and execute it without feedback. This
approach fails in real-world scenarios where instructions are often ambiguous.
In this paper, we address this problem with the Ask-to-Clarify framework. Our
framework first resolves ambiguous instructions by asking questions in a
multi-turn dialogue. Then it generates low-level actions end-to-end.
Specifically, the Ask-to-Clarify framework consists of two components, one VLM
for collaboration and one diffusion for action. We also introduce a connection
module that generates conditions for the diffusion based on the output of the
VLM. This module adjusts the observation by instructions to create reliable
conditions. We train our framework with a two-stage knowledge-insulation
strategy. First, we fine-tune the collaboration component using
ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the
action component while freezing the collaboration one. This preserves the
interaction abilities while fine-tuning the diffusion to generate actions. The
training strategy guarantees our framework can first ask questions, then
generate actions. During inference, a signal detector functions as a router
that helps our framework switch between asking questions and taking actions. We
evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it
outperforms existing state-of-the-art VLAs. The results suggest that our
proposed framework, along with the training strategy, provides a path toward
collaborative embodied agents.