AmbiK: Conjunto de Datos de Tareas Ambiguas en Entornos de Cocina
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment
June 4, 2025
Autores: Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI
Resumen
Como parte de un agente corporeizado, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan típicamente para la planificación de comportamientos a partir de instrucciones en lenguaje natural proporcionadas por el usuario. Sin embargo, manejar instrucciones ambiguas en entornos del mundo real sigue siendo un desafío para los LLMs. Se han propuesto diversos métodos para la detección de ambigüedades en tareas, pero es difícil compararlos debido a que se prueban en diferentes conjuntos de datos y no existe un punto de referencia universal. Por esta razón, proponemos AmbiK (Tareas Ambiguas en Entornos de Cocina), un conjunto de datos completamente textual de instrucciones ambiguas dirigidas a un robot en un entorno de cocina. AmbiK fue recopilado con la asistencia de LLMs y está validado por humanos. Consta de 1000 pares de tareas ambiguas y sus contrapartes no ambiguas, categorizadas por tipo de ambigüedad (Preferencias Humanas, Conocimiento de Sentido Común, Seguridad), con descripciones del entorno, preguntas y respuestas de clarificación, intenciones del usuario y planes de tareas, sumando un total de 2000 tareas. Esperamos que AmbiK permita a los investigadores realizar una comparación unificada de los métodos de detección de ambigüedades. AmbiK está disponible en https://github.com/cog-model/AmbiK-dataset.
English
As a part of an embodied agent, Large Language Models (LLMs) are typically
used for behavior planning given natural language instructions from the user.
However, dealing with ambiguous instructions in real-world environments remains
a challenge for LLMs. Various methods for task ambiguity detection have been
proposed. However, it is difficult to compare them because they are tested on
different datasets and there is no universal benchmark. For this reason, we
propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual
dataset of ambiguous instructions addressed to a robot in a kitchen
environment. AmbiK was collected with the assistance of LLMs and is
human-validated. It comprises 1000 pairs of ambiguous tasks and their
unambiguous counterparts, categorized by ambiguity type (Human Preferences,
Common Sense Knowledge, Safety), with environment descriptions, clarifying
questions and answers, user intents, and task plans, for a total of 2000 tasks.
We hope that AmbiK will enable researchers to perform a unified comparison of
ambiguity detection methods. AmbiK is available at
https://github.com/cog-model/AmbiK-dataset.