Ask-to-Clarify: Het oplossen van instructie-ambiguïteit via meerdere dialoogrondes
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue
September 18, 2025
Auteurs: Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
Samenvatting
Het uiteindelijke doel van belichaamde agents is het creëren van samenwerkingspartners die kunnen interacteren met mensen, niet slechts uitvoerders die passief instructies volgen. Dit vereist dat agents kunnen communiceren, coördineren en hun acties kunnen aanpassen op basis van menselijke feedback. Recente vooruitgang in VLAs (Vision-Language-Action modellen) heeft een pad naar dit doel geboden. De meeste huidige VLA-gebaseerde belichaamde agents opereren echter in een eenrichtingsmodus: ze ontvangen een instructie en voeren deze uit zonder feedback. Deze aanpak faalt in realistische scenario’s waar instructies vaak dubbelzinnig zijn. In dit artikel pakken we dit probleem aan met het Ask-to-Clarify raamwerk. Ons raamwerk lost eerst dubbelzinnige instructies op door vragen te stellen in een meerzijdige dialoog. Vervolgens genereert het end-to-end laagniveau acties. Specifiek bestaat het Ask-to-Clarify raamwerk uit twee componenten: één VLM (Vision-Language Model) voor samenwerking en één diffusiemodel voor acties. We introduceren ook een verbindingsmodule die voorwaarden genereert voor het diffusiemodel op basis van de uitvoer van het VLM. Deze module past de observatie aan op basis van instructies om betrouwbare voorwaarden te creëren. We trainen ons raamwerk met een tweefasen kennisisolatiestrategie. Eerst finetunen we de samenwerkingscomponent met behulp van dialooggegevens voor het oplossen van dubbelzinnigheid. Vervolgens integreren we de actiecomponent terwijl we de samenwerkingscomponent bevriezen. Dit behoudt de interactievaardigheden terwijl het diffusiemodel wordt gefinetuned om acties te genereren. De trainingsstrategie garandeert dat ons raamwerk eerst vragen kan stellen en vervolgens acties kan genereren. Tijdens inferentie fungeert een signaaldetector als router die ons raamwerk helpt schakelen tussen het stellen van vragen en het uitvoeren van acties. We evalueren het Ask-to-Clarify raamwerk in 8 realistische taken, waar het de huidige state-of-the-art VLAs overtreft. De resultaten suggereren dat ons voorgestelde raamwerk, samen met de trainingsstrategie, een pad biedt naar collaboratieve belichaamde agents.
English
The ultimate goal of embodied agents is to create collaborators that can
interact with humans, not mere executors that passively follow instructions.
This requires agents to communicate, coordinate, and adapt their actions based
on human feedback. Recently, advances in VLAs have offered a path toward this
goal. However, most current VLA-based embodied agents operate in a one-way
mode: they receive an instruction and execute it without feedback. This
approach fails in real-world scenarios where instructions are often ambiguous.
In this paper, we address this problem with the Ask-to-Clarify framework. Our
framework first resolves ambiguous instructions by asking questions in a
multi-turn dialogue. Then it generates low-level actions end-to-end.
Specifically, the Ask-to-Clarify framework consists of two components, one VLM
for collaboration and one diffusion for action. We also introduce a connection
module that generates conditions for the diffusion based on the output of the
VLM. This module adjusts the observation by instructions to create reliable
conditions. We train our framework with a two-stage knowledge-insulation
strategy. First, we fine-tune the collaboration component using
ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the
action component while freezing the collaboration one. This preserves the
interaction abilities while fine-tuning the diffusion to generate actions. The
training strategy guarantees our framework can first ask questions, then
generate actions. During inference, a signal detector functions as a router
that helps our framework switch between asking questions and taking actions. We
evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it
outperforms existing state-of-the-art VLAs. The results suggest that our
proposed framework, along with the training strategy, provides a path toward
collaborative embodied agents.