Ask-to-Clarify: Resolución de ambigüedades en instrucciones mediante diálogo multiturno
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue
September 18, 2025
Autores: Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Resumen
El objetivo final de los agentes corporizados es crear colaboradores que puedan interactuar con los humanos, no meros ejecutores que sigan instrucciones de manera pasiva. Esto requiere que los agentes se comuniquen, coordinen y adapten sus acciones en función de la retroalimentación humana. Recientemente, los avances en los VLAs (Agentes de Lenguaje Visual) han ofrecido un camino hacia este objetivo. Sin embargo, la mayoría de los agentes corporizados basados en VLAs actuales operan en un modo unidireccional: reciben una instrucción y la ejecutan sin retroalimentación. Este enfoque falla en escenarios del mundo real donde las instrucciones suelen ser ambiguas. En este artículo, abordamos este problema con el marco Ask-to-Clarify (Preguntar para Aclarar). Nuestro marco primero resuelve las instrucciones ambiguas haciendo preguntas en un diálogo de múltiples turnos. Luego, genera acciones de bajo nivel de extremo a extremo. Específicamente, el marco Ask-to-Clarify consta de dos componentes: un VLM (Modelo de Lenguaje Visual) para la colaboración y un modelo de difusión para la acción. También introducimos un módulo de conexión que genera condiciones para la difusión basadas en la salida del VLM. Este módulo ajusta la observación según las instrucciones para crear condiciones confiables. Entrenamos nuestro marco con una estrategia de aislamiento de conocimiento en dos etapas. Primero, afinamos el componente de colaboración utilizando datos de diálogo para resolver ambigüedades. Luego, integramos el componente de acción mientras congelamos el de colaboración. Esto preserva las habilidades de interacción mientras afinamos el modelo de difusión para generar acciones. La estrategia de entrenamiento garantiza que nuestro marco pueda primero hacer preguntas y luego generar acciones. Durante la inferencia, un detector de señales funciona como un enrutador que ayuda a nuestro marco a alternar entre hacer preguntas y realizar acciones. Evaluamos el marco Ask-to-Clarify en 8 tareas del mundo real, donde supera a los VLAs más avanzados existentes. Los resultados sugieren que nuestro marco propuesto, junto con la estrategia de entrenamiento, proporciona un camino hacia agentes corporizados colaborativos.
English
The ultimate goal of embodied agents is to create collaborators that can
interact with humans, not mere executors that passively follow instructions.
This requires agents to communicate, coordinate, and adapt their actions based
on human feedback. Recently, advances in VLAs have offered a path toward this
goal. However, most current VLA-based embodied agents operate in a one-way
mode: they receive an instruction and execute it without feedback. This
approach fails in real-world scenarios where instructions are often ambiguous.
In this paper, we address this problem with the Ask-to-Clarify framework. Our
framework first resolves ambiguous instructions by asking questions in a
multi-turn dialogue. Then it generates low-level actions end-to-end.
Specifically, the Ask-to-Clarify framework consists of two components, one VLM
for collaboration and one diffusion for action. We also introduce a connection
module that generates conditions for the diffusion based on the output of the
VLM. This module adjusts the observation by instructions to create reliable
conditions. We train our framework with a two-stage knowledge-insulation
strategy. First, we fine-tune the collaboration component using
ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the
action component while freezing the collaboration one. This preserves the
interaction abilities while fine-tuning the diffusion to generate actions. The
training strategy guarantees our framework can first ask questions, then
generate actions. During inference, a signal detector functions as a router
that helps our framework switch between asking questions and taking actions. We
evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it
outperforms existing state-of-the-art VLAs. The results suggest that our
proposed framework, along with the training strategy, provides a path toward
collaborative embodied agents.