Ask-to-Clarify: Resolvendo Ambiguidades de Instruções por meio de Diálogos Multiturno
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue
September 18, 2025
Autores: Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumo
O objetivo final dos agentes corporificados é criar colaboradores que possam interagir com humanos, e não meros executores que seguem instruções de forma passiva. Isso exige que os agentes se comuniquem, coordenem e adaptem suas ações com base no feedback humano. Recentemente, avanços em VLAs (Agentes de Linguagem Visual) ofereceram um caminho para alcançar esse objetivo. No entanto, a maioria dos agentes corporificados baseados em VLAs atuais opera em um modo unidirecional: recebem uma instrução e a executam sem feedback. Essa abordagem falha em cenários do mundo real, onde as instruções costumam ser ambíguas. Neste artigo, abordamos esse problema com o framework Ask-to-Clarify. Nosso framework primeiro resolve instruções ambíguas fazendo perguntas em um diálogo de múltiplos turnos. Em seguida, gera ações de baixo nível de ponta a ponta. Especificamente, o framework Ask-to-Clarify consiste em dois componentes: um VLM (Modelo de Linguagem Visual) para colaboração e um modelo de difusão para ação. Também introduzimos um módulo de conexão que gera condições para a difusão com base na saída do VLM. Esse módulo ajusta a observação por meio das instruções para criar condições confiáveis. Treinamos nosso framework com uma estratégia de isolamento de conhecimento em duas etapas. Primeiro, ajustamos o componente de colaboração usando dados de diálogo para resolução de ambiguidades. Em seguida, integramos o componente de ação enquanto congelamos o de colaboração. Isso preserva as habilidades de interação enquanto ajustamos o modelo de difusão para gerar ações. A estratégia de treinamento garante que nosso framework possa primeiro fazer perguntas e, depois, gerar ações. Durante a inferência, um detector de sinal funciona como um roteador que ajuda nosso framework a alternar entre fazer perguntas e realizar ações. Avaliamos o framework Ask-to-Clarify em 8 tarefas do mundo real, onde ele supera os VLAs state-of-the-art existentes. Os resultados sugerem que nosso framework proposto, juntamente com a estratégia de treinamento, oferece um caminho para agentes corporificados colaborativos.
English
The ultimate goal of embodied agents is to create collaborators that can
interact with humans, not mere executors that passively follow instructions.
This requires agents to communicate, coordinate, and adapt their actions based
on human feedback. Recently, advances in VLAs have offered a path toward this
goal. However, most current VLA-based embodied agents operate in a one-way
mode: they receive an instruction and execute it without feedback. This
approach fails in real-world scenarios where instructions are often ambiguous.
In this paper, we address this problem with the Ask-to-Clarify framework. Our
framework first resolves ambiguous instructions by asking questions in a
multi-turn dialogue. Then it generates low-level actions end-to-end.
Specifically, the Ask-to-Clarify framework consists of two components, one VLM
for collaboration and one diffusion for action. We also introduce a connection
module that generates conditions for the diffusion based on the output of the
VLM. This module adjusts the observation by instructions to create reliable
conditions. We train our framework with a two-stage knowledge-insulation
strategy. First, we fine-tune the collaboration component using
ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the
action component while freezing the collaboration one. This preserves the
interaction abilities while fine-tuning the diffusion to generate actions. The
training strategy guarantees our framework can first ask questions, then
generate actions. During inference, a signal detector functions as a router
that helps our framework switch between asking questions and taking actions. We
evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it
outperforms existing state-of-the-art VLAs. The results suggest that our
proposed framework, along with the training strategy, provides a path toward
collaborative embodied agents.