Pensando como um Anotador: Geração de Instruções para Rotulação de Conjuntos de Dados
Thinking Like an Annotator: Generation of Dataset Labeling Instructions
June 24, 2023
Autores: Nadine Chang, Francesco Ferroni, Michael J. Tarr, Martial Hebert, Deva Ramanan
cs.AI
Resumo
Conjuntos de dados em grande escala são essenciais para o aprendizado profundo moderno. Defensores argumentam que a compreensão desses métodos requer transparência dos conjuntos de dados (por exemplo, "curadoria do conjunto de dados, motivação, composição, processo de coleta, etc."). No entanto, quase ninguém sugeriu a divulgação das definições detalhadas e exemplos visuais de categorias fornecidos aos anotadores - informações cruciais para entender a estrutura das anotações presentes em cada conjunto de dados. Esses rótulos estão no cerne dos conjuntos de dados públicos, mas poucos conjuntos de dados incluem as instruções que foram usadas para gerá-los. Introduzimos uma nova tarefa, Geração de Instruções de Rotulagem, para abordar a falta de instruções de rotulagem disponíveis publicamente. Na Geração de Instruções de Rotulagem, tomamos um conjunto de dados razoavelmente anotado e: 1) geramos um conjunto de exemplos que são visualmente representativos de cada categoria no conjunto de dados; 2) fornecemos um rótulo textual que corresponde a cada um dos exemplos. Introduzimos um framework que não requer treinamento de modelos para resolver essa tarefa e inclui um sistema de recuperação rápida recém-criado que aproveita um grande modelo de visão e linguagem pré-treinado. Esse framework atua como um proxy para anotadores humanos que pode ajudar tanto a gerar um conjunto final de instruções de rotulagem quanto a avaliar sua qualidade. Nosso framework gera múltiplas representações visuais e textuais diversas das categorias do conjunto de dados. O conjunto de instruções otimizado supera nossa linha de base mais forte em 5 folds por 7,06 mAP para NuImages e 12,9 mAP para COCO.
English
Large-scale datasets are essential to modern day deep learning. Advocates
argue that understanding these methods requires dataset transparency (e.g.
"dataset curation, motivation, composition, collection process, etc...").
However, almost no one has suggested the release of the detailed definitions
and visual category examples provided to annotators - information critical to
understanding the structure of the annotations present in each dataset. These
labels are at the heart of public datasets, yet few datasets include the
instructions that were used to generate them. We introduce a new task, Labeling
Instruction Generation, to address missing publicly available labeling
instructions. In Labeling Instruction Generation, we take a reasonably
annotated dataset and: 1) generate a set of examples that are visually
representative of each category in the dataset; 2) provide a text label that
corresponds to each of the examples. We introduce a framework that requires no
model training to solve this task and includes a newly created rapid retrieval
system that leverages a large, pre-trained vision and language model. This
framework acts as a proxy to human annotators that can help to both generate a
final labeling instruction set and evaluate its quality. Our framework
generates multiple diverse visual and text representations of dataset
categories. The optimized instruction set outperforms our strongest baseline
across 5 folds by 7.06 mAP for NuImages and 12.9 mAP for COCO.