Pensando como um Anotador: Geração de Instruções para Rotulação de Conjuntos de Dados

Resumo

Conjuntos de dados em grande escala são essenciais para o aprendizado profundo moderno. Defensores argumentam que a compreensão desses métodos requer transparência dos conjuntos de dados (por exemplo, "curadoria do conjunto de dados, motivação, composição, processo de coleta, etc."). No entanto, quase ninguém sugeriu a divulgação das definições detalhadas e exemplos visuais de categorias fornecidos aos anotadores - informações cruciais para entender a estrutura das anotações presentes em cada conjunto de dados. Esses rótulos estão no cerne dos conjuntos de dados públicos, mas poucos conjuntos de dados incluem as instruções que foram usadas para gerá-los. Introduzimos uma nova tarefa, Geração de Instruções de Rotulagem, para abordar a falta de instruções de rotulagem disponíveis publicamente. Na Geração de Instruções de Rotulagem, tomamos um conjunto de dados razoavelmente anotado e: 1) geramos um conjunto de exemplos que são visualmente representativos de cada categoria no conjunto de dados; 2) fornecemos um rótulo textual que corresponde a cada um dos exemplos. Introduzimos um framework que não requer treinamento de modelos para resolver essa tarefa e inclui um sistema de recuperação rápida recém-criado que aproveita um grande modelo de visão e linguagem pré-treinado. Esse framework atua como um proxy para anotadores humanos que pode ajudar tanto a gerar um conjunto final de instruções de rotulagem quanto a avaliar sua qualidade. Nosso framework gera múltiplas representações visuais e textuais diversas das categorias do conjunto de dados. O conjunto de instruções otimizado supera nossa linha de base mais forte em 5 folds por 7,06 mAP para NuImages e 12,9 mAP para COCO.

English

Large-scale datasets are essential to modern day deep learning. Advocates argue that understanding these methods requires dataset transparency (e.g. "dataset curation, motivation, composition, collection process, etc..."). However, almost no one has suggested the release of the detailed definitions and visual category examples provided to annotators - information critical to understanding the structure of the annotations present in each dataset. These labels are at the heart of public datasets, yet few datasets include the instructions that were used to generate them. We introduce a new task, Labeling Instruction Generation, to address missing publicly available labeling instructions. In Labeling Instruction Generation, we take a reasonably annotated dataset and: 1) generate a set of examples that are visually representative of each category in the dataset; 2) provide a text label that corresponds to each of the examples. We introduce a framework that requires no model training to solve this task and includes a newly created rapid retrieval system that leverages a large, pre-trained vision and language model. This framework acts as a proxy to human annotators that can help to both generate a final labeling instruction set and evaluate its quality. Our framework generates multiple diverse visual and text representations of dataset categories. The optimized instruction set outperforms our strongest baseline across 5 folds by 7.06 mAP for NuImages and 12.9 mAP for COCO.

Pensando como um Anotador: Geração de Instruções para Rotulação de Conjuntos de Dados

Thinking Like an Annotator: Generation of Dataset Labeling Instructions

Resumo

Support