Ask-to-Clarify : Résolution des ambiguïtés d'instructions par un dialogue multi-tours
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue
September 18, 2025
papers.authors: Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
papers.abstract
L'objectif ultime des agents incarnés est de créer des collaborateurs capables d'interagir avec les humains, et non de simples exécutants qui suivent passivement des instructions. Cela nécessite que les agents communiquent, coordonnent et adaptent leurs actions en fonction des retours humains. Récemment, les avancées dans les VLAs (Vision-Language-Action models) ont offert une voie vers cet objectif. Cependant, la plupart des agents incarnés basés sur les VLAs actuels fonctionnent en mode unidirectionnel : ils reçoivent une instruction et l'exécutent sans retour d'information. Cette approche échoue dans des scénarios réels où les instructions sont souvent ambiguës. Dans cet article, nous abordons ce problème avec le cadre Ask-to-Clarify. Notre cadre résout d'abord les instructions ambiguës en posant des questions dans un dialogue multi-tours. Ensuite, il génère des actions de bas niveau de manière end-to-end. Plus précisément, le cadre Ask-to-Clarify se compose de deux composants : un VLM (Vision-Language Model) pour la collaboration et un modèle de diffusion pour l'action. Nous introduisons également un module de connexion qui génère des conditions pour la diffusion en fonction de la sortie du VLM. Ce module ajuste l'observation par les instructions pour créer des conditions fiables. Nous entraînons notre cadre avec une stratégie d'isolation des connaissances en deux étapes. Tout d'abord, nous affinons le composant de collaboration en utilisant des données de dialogue résolvant l'ambiguïté pour gérer celle-ci. Ensuite, nous intégrons le composant d'action tout en gelant celui de collaboration. Cela préserve les capacités d'interaction tout en affinant la diffusion pour générer des actions. La stratégie d'entraînement garantit que notre cadre peut d'abord poser des questions, puis générer des actions. Pendant l'inférence, un détecteur de signal fonctionne comme un routeur qui aide notre cadre à basculer entre poser des questions et effectuer des actions. Nous évaluons le cadre Ask-to-Clarify dans 8 tâches du monde réel, où il surpasse les VLAs de pointe existants. Les résultats suggèrent que notre cadre proposé, ainsi que la stratégie d'entraînement, offrent une voie vers des agents incarnés collaboratifs.
English
The ultimate goal of embodied agents is to create collaborators that can
interact with humans, not mere executors that passively follow instructions.
This requires agents to communicate, coordinate, and adapt their actions based
on human feedback. Recently, advances in VLAs have offered a path toward this
goal. However, most current VLA-based embodied agents operate in a one-way
mode: they receive an instruction and execute it without feedback. This
approach fails in real-world scenarios where instructions are often ambiguous.
In this paper, we address this problem with the Ask-to-Clarify framework. Our
framework first resolves ambiguous instructions by asking questions in a
multi-turn dialogue. Then it generates low-level actions end-to-end.
Specifically, the Ask-to-Clarify framework consists of two components, one VLM
for collaboration and one diffusion for action. We also introduce a connection
module that generates conditions for the diffusion based on the output of the
VLM. This module adjusts the observation by instructions to create reliable
conditions. We train our framework with a two-stage knowledge-insulation
strategy. First, we fine-tune the collaboration component using
ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the
action component while freezing the collaboration one. This preserves the
interaction abilities while fine-tuning the diffusion to generate actions. The
training strategy guarantees our framework can first ask questions, then
generate actions. During inference, a signal detector functions as a router
that helps our framework switch between asking questions and taking actions. We
evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it
outperforms existing state-of-the-art VLAs. The results suggest that our
proposed framework, along with the training strategy, provides a path toward
collaborative embodied agents.