ChatPaper.aiChatPaper

AmbiK: Dataset van Ambigue Taken in Keukenomgeving

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

June 4, 2025
Auteurs: Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

Samenvatting

Als onderdeel van een belichaamde agent worden Large Language Models (LLMs) doorgaans gebruikt voor gedragsplanning op basis van natuurlijke taal instructies van de gebruiker. Het omgaan met dubbelzinnige instructies in real-world omgevingen blijft echter een uitdaging voor LLMs. Er zijn verschillende methoden voorgesteld voor het detecteren van taakdubbelzinnigheid. Het is echter moeilijk om deze te vergelijken omdat ze op verschillende datasets worden getest en er geen universele benchmark bestaat. Om deze reden stellen we AmbiK (Ambiguous Tasks in Kitchen Environment) voor, de volledig tekstuele dataset van dubbelzinnige instructies gericht aan een robot in een keukenomgeving. AmbiK is verzameld met behulp van LLMs en is door mensen gevalideerd. Het omvat 1000 paren van dubbelzinnige taken en hun ondubbelzinnige tegenhangers, gecategoriseerd op type dubbelzinnigheid (Menselijke Voorkeuren, Algemene Kennis, Veiligheid), met omgevingsbeschrijvingen, verhelderende vragen en antwoorden, gebruikersintenties en taakplannen, in totaal 2000 taken. We hopen dat AmbiK onderzoekers in staat zal stellen om een uniforme vergelijking te maken van methoden voor het detecteren van dubbelzinnigheid. AmbiK is beschikbaar op https://github.com/cog-model/AmbiK-dataset.
English
As a part of an embodied agent, Large Language Models (LLMs) are typically used for behavior planning given natural language instructions from the user. However, dealing with ambiguous instructions in real-world environments remains a challenge for LLMs. Various methods for task ambiguity detection have been proposed. However, it is difficult to compare them because they are tested on different datasets and there is no universal benchmark. For this reason, we propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual dataset of ambiguous instructions addressed to a robot in a kitchen environment. AmbiK was collected with the assistance of LLMs and is human-validated. It comprises 1000 pairs of ambiguous tasks and their unambiguous counterparts, categorized by ambiguity type (Human Preferences, Common Sense Knowledge, Safety), with environment descriptions, clarifying questions and answers, user intents, and task plans, for a total of 2000 tasks. We hope that AmbiK will enable researchers to perform a unified comparison of ambiguity detection methods. AmbiK is available at https://github.com/cog-model/AmbiK-dataset.
PDF472June 5, 2025