Ask-to-Clarify: Auflösung von Instruktionsmehrdeutigkeiten durch mehrschrittigen Dialog

Zusammenfassung

Das ultimative Ziel verkörperter Agenten ist es, Kollaborateure zu schaffen, die mit Menschen interagieren können, und nicht bloße Ausführende, die passiv Anweisungen befolgen. Dies erfordert, dass Agenten kommunizieren, koordinieren und ihre Handlungen basierend auf menschlichem Feedback anpassen. In jüngster Zeit haben Fortschritte in VLAs einen Weg zu diesem Ziel aufgezeigt. Die meisten derzeitigen, auf VLA basierenden verkörperten Agenten operieren jedoch in einem Einweg-Modus: Sie erhalten eine Anweisung und führen sie ohne Rückmeldung aus. Dieser Ansatz scheitert in realen Szenarien, in denen Anweisungen oft mehrdeutig sind. In diesem Artikel behandeln wir dieses Problem mit dem Ask-to-Clarify-Framework. Unser Framework klärt zunächst mehrdeutige Anweisungen durch das Stellen von Fragen in einem mehrschrittigen Dialog. Anschließend generiert es Low-Level-Aktionen end-to-end. Konkret besteht das Ask-to-Clarify-Framework aus zwei Komponenten: einem VLM für die Kollaboration und einer Diffusion für die Aktion. Wir führen außerdem ein Verbindungsmodul ein, das Bedingungen für die Diffusion basierend auf der Ausgabe des VLM generiert. Dieses Modul passt die Beobachtung durch Anweisungen an, um zuverlässige Bedingungen zu schaffen. Wir trainieren unser Framework mit einer zweistufigen Wissensisolierungsstrategie. Zuerst feintunen wir die Kollaborationskomponente mithilfe von Dialogdaten zur Mehrdeutigkeitslösung, um Mehrdeutigkeiten zu bewältigen. Dann integrieren wir die Aktionskomponente, während die Kollaborationskomponente eingefroren bleibt. Dies bewahrt die Interaktionsfähigkeiten, während die Diffusion feinjustiert wird, um Aktionen zu generieren. Die Trainingsstrategie gewährleistet, dass unser Framework zuerst Fragen stellen und dann Aktionen generieren kann. Während der Inferenz fungiert ein Signalerkennungsmodul als Router, der unserem Framework hilft, zwischen dem Stellen von Fragen und dem Ausführen von Aktionen zu wechseln. Wir evaluieren das Ask-to-Clarify-Framework in 8 realen Aufgaben, in denen es bestehende state-of-the-art VLAs übertrifft. Die Ergebnisse deuten darauf hin, dass unser vorgeschlagenes Framework zusammen mit der Trainingsstrategie einen Weg zu kollaborativen verkörperten Agenten bietet.

English

The ultimate goal of embodied agents is to create collaborators that can interact with humans, not mere executors that passively follow instructions. This requires agents to communicate, coordinate, and adapt their actions based on human feedback. Recently, advances in VLAs have offered a path toward this goal. However, most current VLA-based embodied agents operate in a one-way mode: they receive an instruction and execute it without feedback. This approach fails in real-world scenarios where instructions are often ambiguous. In this paper, we address this problem with the Ask-to-Clarify framework. Our framework first resolves ambiguous instructions by asking questions in a multi-turn dialogue. Then it generates low-level actions end-to-end. Specifically, the Ask-to-Clarify framework consists of two components, one VLM for collaboration and one diffusion for action. We also introduce a connection module that generates conditions for the diffusion based on the output of the VLM. This module adjusts the observation by instructions to create reliable conditions. We train our framework with a two-stage knowledge-insulation strategy. First, we fine-tune the collaboration component using ambiguity-solving dialogue data to handle ambiguity. Then, we integrate the action component while freezing the collaboration one. This preserves the interaction abilities while fine-tuning the diffusion to generate actions. The training strategy guarantees our framework can first ask questions, then generate actions. During inference, a signal detector functions as a router that helps our framework switch between asking questions and taking actions. We evaluate the Ask-to-Clarify framework in 8 real-world tasks, where it outperforms existing state-of-the-art VLAs. The results suggest that our proposed framework, along with the training strategy, provides a path toward collaborative embodied agents.