Ask-to-Clarify : Résolution des ambiguïtés d'instructions par un dialogue multi-tours

Résumé

L'objectif ultime des agents incarnés est de créer des collaborateurs capables d'interagir avec les humains, et non de simples exécutants qui suivent passivement des instructions. Cela nécessite que les agents communiquent, coordonnent et adaptent leurs actions en fonction des retours humains. Récemment, les avancées dans les VLAs (Vision-Language-Action models) ont offert une voie vers cet objectif. Cependant, la plupart des agents incarnés basés sur les VLAs actuels fonctionnent en mode unidirectionnel : ils reçoivent une instruction et l'exécutent sans retour d'information. Cette approche échoue dans des scénarios réels où les instructions sont souvent ambiguës. Dans cet article, nous abordons ce problème avec le cadre Ask-to-Clarify. Notre cadre résout d'abord les instructions ambiguës en posant des questions dans un dialogue multi-tours. Ensuite, il génère des actions de bas niveau de manière end-to-end. Plus précisément, le cadre Ask-to-Clarify se compose de deux composants : un VLM (Vision-Language Model) pour la collaboration et un modèle de diffusion pour l'action. Nous introduisons également un module de connexion qui génère des conditions pour la diffusion en fonction de la sortie du VLM. Ce module ajuste l'observation par les instructions pour créer des conditions fiables. Nous entraînons notre cadre avec une stratégie d'isolation des connaissances en deux étapes. Tout d'abord, nous affinons le composant de collaboration en utilisant des données de dialogue résolvant l'ambiguïté pour gérer celle-ci. Ensuite, nous intégrons le composant d'action tout en gelant celui de collaboration. Cela préserve les capacités d'interaction tout en affinant la diffusion pour générer des actions. La stratégie d'entraînement garantit que notre cadre peut d'abord poser des questions, puis générer des actions. Pendant l'inférence, un détecteur de signal fonctionne comme un routeur qui aide notre cadre à basculer entre poser des questions et effectuer des actions. Nous évaluons le cadre Ask-to-Clarify dans 8 tâches du monde réel, où il surpasse les VLAs de pointe existants. Les résultats suggèrent que notre cadre proposé, ainsi que la stratégie d'entraînement, offrent une voie vers des agents incarnés collaboratifs.

English

The ultimate goal of embodied agents is to create collaborators that can interact with humans, not mere executors that passively follow instructions. This requires agents to communicate, coordinate, and adapt their actions based on human feedback. Recently, advances in VLAs have offered a path toward this goal. However, most current VLA-based embodied agents operate in a one-way mode: they receive an instruction and execute it without feedback. This approach fails in real-world scenarios where instructions are often ambiguous. In this paper, we address this problem with the Ask-to-Clarify framework. Our framework first resolves ambiguous instructions by asking questions in a multi-turn dialogue. Then it generates low-level actions end-to-end. Specifically, the Ask-to-Clarify framework consists of two components, one VLM for collaboration and one diffusion for action. We also introduce a connection module that generates conditions for the diffusion based on the output of the VLM. This module adjusts the observation by instructions to create reliable conditions. We train our framework with a two-stage knowledge-insulation strategy. First, we fine-tune the collaboration component using ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the action component while freezing the collaboration one. This preserves the interaction abilities while fine-tuning the diffusion to generate actions. The training strategy guarantees our framework can first ask questions, then generate actions. During inference, a signal detector functions as a router that helps our framework switch between asking questions and taking actions. We evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it outperforms existing state-of-the-art VLAs. The results suggest that our proposed framework, along with the training strategy, provides a path toward collaborative embodied agents.