AmbiK: Datensatz mehrdeutiger Aufgaben in der Küchenumgebung
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment
June 4, 2025
Autoren: Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI
Zusammenfassung
Als Teil eines verkörperten Agenten werden Large Language Models (LLMs) typischerweise für die Verhaltensplanung basierend auf natürlichen Sprachanweisungen des Benutzers eingesetzt. Die Bewältigung von mehrdeutigen Anweisungen in realen Umgebungen bleibt jedoch eine Herausforderung für LLMs. Es wurden verschiedene Methoden zur Erkennung von Aufgabenmehrdeutigkeit vorgeschlagen. Es ist jedoch schwierig, sie zu vergleichen, da sie auf unterschiedlichen Datensätzen getestet werden und es keinen universellen Benchmark gibt. Aus diesem Grund schlagen wir AmbiK (Ambiguous Tasks in Kitchen Environment) vor, einen vollständig textuellen Datensatz von mehrdeutigen Anweisungen, die an einen Roboter in einer Küchenumgebung gerichtet sind. AmbiK wurde mit Unterstützung von LLMs erstellt und ist von Menschen validiert. Es umfasst 1000 Paare von mehrdeutigen Aufgaben und ihren eindeutigen Gegenstücken, kategorisiert nach Mehrdeutigkeitstyp (Menschliche Präferenzen, Allgemeinwissen, Sicherheit), mit Umgebungsbeschreibungen, Klärungsfragen und -antworten, Benutzerabsichten und Aufgabenplänen, insgesamt 2000 Aufgaben. Wir hoffen, dass AmbiK Forschern ermöglichen wird, eine einheitliche Vergleichbarkeit von Methoden zur Mehrdeutigkeitserkennung durchzuführen. AmbiK ist verfügbar unter https://github.com/cog-model/AmbiK-dataset.
English
As a part of an embodied agent, Large Language Models (LLMs) are typically
used for behavior planning given natural language instructions from the user.
However, dealing with ambiguous instructions in real-world environments remains
a challenge for LLMs. Various methods for task ambiguity detection have been
proposed. However, it is difficult to compare them because they are tested on
different datasets and there is no universal benchmark. For this reason, we
propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual
dataset of ambiguous instructions addressed to a robot in a kitchen
environment. AmbiK was collected with the assistance of LLMs and is
human-validated. It comprises 1000 pairs of ambiguous tasks and their
unambiguous counterparts, categorized by ambiguity type (Human Preferences,
Common Sense Knowledge, Safety), with environment descriptions, clarifying
questions and answers, user intents, and task plans, for a total of 2000 tasks.
We hope that AmbiK will enable researchers to perform a unified comparison of
ambiguity detection methods. AmbiK is available at
https://github.com/cog-model/AmbiK-dataset.