ChatPaper.aiChatPaper

AmbiK : Base de données des tâches ambiguës dans un environnement de cuisine

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

June 4, 2025
Auteurs: Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

Résumé

En tant que composant d'un agent incarné, les modèles de langage de grande taille (LLMs) sont généralement utilisés pour la planification des comportements à partir d'instructions en langage naturel fournies par l'utilisateur. Cependant, la gestion des instructions ambiguës dans des environnements réels reste un défi pour les LLMs. Diverses méthodes de détection d'ambiguïté dans les tâches ont été proposées. Cependant, il est difficile de les comparer car elles sont testées sur différents ensembles de données et il n'existe pas de référence universelle. Pour cette raison, nous proposons AmbiK (Ambiguous Tasks in Kitchen Environment), un ensemble de données entièrement textuel d'instructions ambiguës adressées à un robot dans un environnement de cuisine. AmbiK a été collecté avec l'assistance de LLMs et est validé par des humains. Il comprend 1000 paires de tâches ambiguës et leurs versions non ambiguës, catégorisées par type d'ambiguïté (Préférences Humaines, Connaissances de Sens Commun, Sécurité), avec des descriptions de l'environnement, des questions et réponses de clarification, des intentions de l'utilisateur et des plans de tâches, pour un total de 2000 tâches. Nous espérons qu'AmbiK permettra aux chercheurs de réaliser une comparaison unifiée des méthodes de détection d'ambiguïté. AmbiK est disponible à l'adresse suivante : https://github.com/cog-model/AmbiK-dataset.
English
As a part of an embodied agent, Large Language Models (LLMs) are typically used for behavior planning given natural language instructions from the user. However, dealing with ambiguous instructions in real-world environments remains a challenge for LLMs. Various methods for task ambiguity detection have been proposed. However, it is difficult to compare them because they are tested on different datasets and there is no universal benchmark. For this reason, we propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual dataset of ambiguous instructions addressed to a robot in a kitchen environment. AmbiK was collected with the assistance of LLMs and is human-validated. It comprises 1000 pairs of ambiguous tasks and their unambiguous counterparts, categorized by ambiguity type (Human Preferences, Common Sense Knowledge, Safety), with environment descriptions, clarifying questions and answers, user intents, and task plans, for a total of 2000 tasks. We hope that AmbiK will enable researchers to perform a unified comparison of ambiguity detection methods. AmbiK is available at https://github.com/cog-model/AmbiK-dataset.
PDF442June 5, 2025