AmbiK: Dataset di Compiti Ambienti in Ambiente Cucina
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment
June 4, 2025
Autori: Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI
Abstract
Come parte di un agente incarnato, i Large Language Models (LLM) sono tipicamente utilizzati per la pianificazione del comportamento in base alle istruzioni in linguaggio naturale fornite dall'utente. Tuttavia, gestire istruzioni ambigue in ambienti del mondo reale rimane una sfida per gli LLM. Sono stati proposti vari metodi per il rilevamento dell'ambiguità nei compiti. Tuttavia, è difficile confrontarli perché vengono testati su diversi dataset e non esiste un benchmark universale. Per questo motivo, proponiamo AmbiK (Ambiguous Tasks in Kitchen Environment), un dataset completamente testuale di istruzioni ambigue rivolte a un robot in un ambiente cucina. AmbiK è stato raccolto con l'assistenza di LLM ed è validato da esseri umani. Comprende 1000 coppie di compiti ambigui e le loro controparti non ambigue, categorizzate per tipo di ambiguità (Preferenze Umane, Conoscenza di Senso Comune, Sicurezza), con descrizioni dell'ambiente, domande e risposte chiarificatrici, intenzioni dell'utente e piani di compito, per un totale di 2000 compiti. Speriamo che AmbiK consenta ai ricercatori di effettuare un confronto unificato dei metodi di rilevamento dell'ambiguità. AmbiK è disponibile all'indirizzo https://github.com/cog-model/AmbiK-dataset.
English
As a part of an embodied agent, Large Language Models (LLMs) are typically
used for behavior planning given natural language instructions from the user.
However, dealing with ambiguous instructions in real-world environments remains
a challenge for LLMs. Various methods for task ambiguity detection have been
proposed. However, it is difficult to compare them because they are tested on
different datasets and there is no universal benchmark. For this reason, we
propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual
dataset of ambiguous instructions addressed to a robot in a kitchen
environment. AmbiK was collected with the assistance of LLMs and is
human-validated. It comprises 1000 pairs of ambiguous tasks and their
unambiguous counterparts, categorized by ambiguity type (Human Preferences,
Common Sense Knowledge, Safety), with environment descriptions, clarifying
questions and answers, user intents, and task plans, for a total of 2000 tasks.
We hope that AmbiK will enable researchers to perform a unified comparison of
ambiguity detection methods. AmbiK is available at
https://github.com/cog-model/AmbiK-dataset.