Ask-to-Clarify: Resolvendo Ambiguidades de Instruções por meio de Diálogos Multiturno

Resumo

O objetivo final dos agentes corporificados é criar colaboradores que possam interagir com humanos, e não meros executores que seguem instruções de forma passiva. Isso exige que os agentes se comuniquem, coordenem e adaptem suas ações com base no feedback humano. Recentemente, avanços em VLAs (Agentes de Linguagem Visual) ofereceram um caminho para alcançar esse objetivo. No entanto, a maioria dos agentes corporificados baseados em VLAs atuais opera em um modo unidirecional: recebem uma instrução e a executam sem feedback. Essa abordagem falha em cenários do mundo real, onde as instruções costumam ser ambíguas. Neste artigo, abordamos esse problema com o framework Ask-to-Clarify. Nosso framework primeiro resolve instruções ambíguas fazendo perguntas em um diálogo de múltiplos turnos. Em seguida, gera ações de baixo nível de ponta a ponta. Especificamente, o framework Ask-to-Clarify consiste em dois componentes: um VLM (Modelo de Linguagem Visual) para colaboração e um modelo de difusão para ação. Também introduzimos um módulo de conexão que gera condições para a difusão com base na saída do VLM. Esse módulo ajusta a observação por meio das instruções para criar condições confiáveis. Treinamos nosso framework com uma estratégia de isolamento de conhecimento em duas etapas. Primeiro, ajustamos o componente de colaboração usando dados de diálogo para resolução de ambiguidades. Em seguida, integramos o componente de ação enquanto congelamos o de colaboração. Isso preserva as habilidades de interação enquanto ajustamos o modelo de difusão para gerar ações. A estratégia de treinamento garante que nosso framework possa primeiro fazer perguntas e, depois, gerar ações. Durante a inferência, um detector de sinal funciona como um roteador que ajuda nosso framework a alternar entre fazer perguntas e realizar ações. Avaliamos o framework Ask-to-Clarify em 8 tarefas do mundo real, onde ele supera os VLAs state-of-the-art existentes. Os resultados sugerem que nosso framework proposto, juntamente com a estratégia de treinamento, oferece um caminho para agentes corporificados colaborativos.

English

The ultimate goal of embodied agents is to create collaborators that can interact with humans, not mere executors that passively follow instructions. This requires agents to communicate, coordinate, and adapt their actions based on human feedback. Recently, advances in VLAs have offered a path toward this goal. However, most current VLA-based embodied agents operate in a one-way mode: they receive an instruction and execute it without feedback. This approach fails in real-world scenarios where instructions are often ambiguous. In this paper, we address this problem with the Ask-to-Clarify framework. Our framework first resolves ambiguous instructions by asking questions in a multi-turn dialogue. Then it generates low-level actions end-to-end. Specifically, the Ask-to-Clarify framework consists of two components, one VLM for collaboration and one diffusion for action. We also introduce a connection module that generates conditions for the diffusion based on the output of the VLM. This module adjusts the observation by instructions to create reliable conditions. We train our framework with a two-stage knowledge-insulation strategy. First, we fine-tune the collaboration component using ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the action component while freezing the collaboration one. This preserves the interaction abilities while fine-tuning the diffusion to generate actions. The training strategy guarantees our framework can first ask questions, then generate actions. During inference, a signal detector functions as a router that helps our framework switch between asking questions and taking actions. We evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it outperforms existing state-of-the-art VLAs. The results suggest that our proposed framework, along with the training strategy, provides a path toward collaborative embodied agents.

Ask-to-Clarify: Resolvendo Ambiguidades de Instruções por meio de Diálogos Multiturno

Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

Resumo

Support