AmbiK: Набор данных неоднозначных задач в кухонной среде
AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment
June 4, 2025
Авторы: Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI
Аннотация
В качестве компонента воплощённого агента, крупные языковые модели (LLMs) обычно используются для планирования поведения на основе естественно-языковых инструкций от пользователя. Однако обработка неоднозначных инструкций в реальных условиях остаётся сложной задачей для LLMs. Были предложены различные методы для обнаружения неоднозначности задач. Однако их сложно сравнивать, так как они тестируются на разных наборах данных, и отсутствует универсальный бенчмарк. По этой причине мы предлагаем AmbiK (Ambiguous Tasks in Kitchen Environment) — полностью текстовый набор данных, содержащий неоднозначные инструкции, адресованные роботу в условиях кухонной среды. AmbiK был собран с помощью LLMs и прошёл проверку людьми. Он включает 1000 пар неоднозначных задач и их однозначных аналогов, классифицированных по типам неоднозначности (человеческие предпочтения, здравый смысл, безопасность), с описаниями среды, уточняющими вопросами и ответами, намерениями пользователя и планами задач, всего 2000 задач. Мы надеемся, что AmbiK позволит исследователям проводить унифицированное сравнение методов обнаружения неоднозначности. AmbiK доступен по адресу https://github.com/cog-model/AmbiK-dataset.
English
As a part of an embodied agent, Large Language Models (LLMs) are typically
used for behavior planning given natural language instructions from the user.
However, dealing with ambiguous instructions in real-world environments remains
a challenge for LLMs. Various methods for task ambiguity detection have been
proposed. However, it is difficult to compare them because they are tested on
different datasets and there is no universal benchmark. For this reason, we
propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual
dataset of ambiguous instructions addressed to a robot in a kitchen
environment. AmbiK was collected with the assistance of LLMs and is
human-validated. It comprises 1000 pairs of ambiguous tasks and their
unambiguous counterparts, categorized by ambiguity type (Human Preferences,
Common Sense Knowledge, Safety), with environment descriptions, clarifying
questions and answers, user intents, and task plans, for a total of 2000 tasks.
We hope that AmbiK will enable researchers to perform a unified comparison of
ambiguity detection methods. AmbiK is available at
https://github.com/cog-model/AmbiK-dataset.