ChatPaper.aiChatPaper

AmbiK: Conjunto de Dados de Tarefas Ambíguas em Ambiente de Cozinha

AmbiK: Dataset of Ambiguous Tasks in Kitchen Environment

June 4, 2025
Autores: Anastasiia Ivanova, Eva Bakaeva, Zoya Volovikova, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

Resumo

Como parte de um agente incorporado, os Modelos de Linguagem de Grande Escala (LLMs) são tipicamente utilizados para o planejamento de comportamentos com base em instruções em linguagem natural fornecidas pelo usuário. No entanto, lidar com instruções ambíguas em ambientes do mundo real continua sendo um desafio para os LLMs. Vários métodos para detecção de ambiguidade em tarefas foram propostos. Entretanto, é difícil compará-los, pois são testados em diferentes conjuntos de dados e não há um benchmark universal. Por esse motivo, propomos o AmbiK (Tarefas Ambíguas em Ambiente de Cozinha), um conjunto de dados totalmente textual de instruções ambíguas direcionadas a um robô em um ambiente de cozinha. O AmbiK foi coletado com a assistência de LLMs e é validado por humanos. Ele compreende 1000 pares de tarefas ambíguas e suas contrapartes inequívocas, categorizadas por tipo de ambiguidade (Preferências Humanas, Conhecimento de Senso Comum, Segurança), com descrições do ambiente, perguntas e respostas de esclarecimento, intenções do usuário e planos de tarefas, totalizando 2000 tarefas. Esperamos que o AmbiK permita que os pesquisadores realizem uma comparação unificada de métodos de detecção de ambiguidade. O AmbiK está disponível em https://github.com/cog-model/AmbiK-dataset.
English
As a part of an embodied agent, Large Language Models (LLMs) are typically used for behavior planning given natural language instructions from the user. However, dealing with ambiguous instructions in real-world environments remains a challenge for LLMs. Various methods for task ambiguity detection have been proposed. However, it is difficult to compare them because they are tested on different datasets and there is no universal benchmark. For this reason, we propose AmbiK (Ambiguous Tasks in Kitchen Environment), the fully textual dataset of ambiguous instructions addressed to a robot in a kitchen environment. AmbiK was collected with the assistance of LLMs and is human-validated. It comprises 1000 pairs of ambiguous tasks and their unambiguous counterparts, categorized by ambiguity type (Human Preferences, Common Sense Knowledge, Safety), with environment descriptions, clarifying questions and answers, user intents, and task plans, for a total of 2000 tasks. We hope that AmbiK will enable researchers to perform a unified comparison of ambiguity detection methods. AmbiK is available at https://github.com/cog-model/AmbiK-dataset.
PDF452June 5, 2025