Ask-to-Clarify: Auflösung von Instruktionsmehrdeutigkeiten durch mehrschrittigen Dialog
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue
September 18, 2025
papers.authors: Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
cs.AI
papers.abstract
Das ultimative Ziel verkörperter Agenten ist es, Kollaborateure zu schaffen, die mit Menschen interagieren können, und nicht bloße Ausführende, die passiv Anweisungen befolgen. Dies erfordert, dass Agenten kommunizieren, koordinieren und ihre Handlungen basierend auf menschlichem Feedback anpassen. In jüngster Zeit haben Fortschritte in VLAs einen Weg zu diesem Ziel aufgezeigt. Die meisten derzeitigen, auf VLA basierenden verkörperten Agenten operieren jedoch in einem Einweg-Modus: Sie erhalten eine Anweisung und führen sie ohne Rückmeldung aus. Dieser Ansatz scheitert in realen Szenarien, in denen Anweisungen oft mehrdeutig sind. In diesem Artikel behandeln wir dieses Problem mit dem Ask-to-Clarify-Framework. Unser Framework klärt zunächst mehrdeutige Anweisungen durch das Stellen von Fragen in einem mehrschrittigen Dialog. Anschließend generiert es Low-Level-Aktionen end-to-end. Konkret besteht das Ask-to-Clarify-Framework aus zwei Komponenten: einem VLM für die Kollaboration und einer Diffusion für die Aktion. Wir führen außerdem ein Verbindungsmodul ein, das Bedingungen für die Diffusion basierend auf der Ausgabe des VLM generiert. Dieses Modul passt die Beobachtung durch Anweisungen an, um zuverlässige Bedingungen zu schaffen. Wir trainieren unser Framework mit einer zweistufigen Wissensisolierungsstrategie. Zuerst feintunen wir die Kollaborationskomponente mithilfe von Dialogdaten zur Mehrdeutigkeitslösung, um Mehrdeutigkeiten zu bewältigen. Dann integrieren wir die Aktionskomponente, während die Kollaborationskomponente eingefroren bleibt. Dies bewahrt die Interaktionsfähigkeiten, während die Diffusion feinjustiert wird, um Aktionen zu generieren. Die Trainingsstrategie gewährleistet, dass unser Framework zuerst Fragen stellen und dann Aktionen generieren kann. Während der Inferenz fungiert ein Signalerkennungsmodul als Router, der unserem Framework hilft, zwischen dem Stellen von Fragen und dem Ausführen von Aktionen zu wechseln. Wir evaluieren das Ask-to-Clarify-Framework in 8 realen Aufgaben, in denen es bestehende state-of-the-art VLAs übertrifft. Die Ergebnisse deuten darauf hin, dass unser vorgeschlagenes Framework zusammen mit der Trainingsstrategie einen Weg zu kollaborativen verkörperten Agenten bietet.
English
The ultimate goal of embodied agents is to create collaborators that can
interact with humans, not mere executors that passively follow instructions.
This requires agents to communicate, coordinate, and adapt their actions based
on human feedback. Recently, advances in VLAs have offered a path toward this
goal. However, most current VLA-based embodied agents operate in a one-way
mode: they receive an instruction and execute it without feedback. This
approach fails in real-world scenarios where instructions are often ambiguous.
In this paper, we address this problem with the Ask-to-Clarify framework. Our
framework first resolves ambiguous instructions by asking questions in a
multi-turn dialogue. Then it generates low-level actions end-to-end.
Specifically, the Ask-to-Clarify framework consists of two components, one VLM
for collaboration and one diffusion for action. We also introduce a connection
module that generates conditions for the diffusion based on the output of the
VLM. This module adjusts the observation by instructions to create reliable
conditions. We train our framework with a two-stage knowledge-insulation
strategy. First, we fine-tune the collaboration component using
ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the
action component while freezing the collaboration one. This preserves the
interaction abilities while fine-tuning the diffusion to generate actions. The
training strategy guarantees our framework can first ask questions, then
generate actions. During inference, a signal detector functions as a router
that helps our framework switch between asking questions and taking actions. We
evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it
outperforms existing state-of-the-art VLAs. The results suggest that our
proposed framework, along with the training strategy, provides a path toward
collaborative embodied agents.