ChatPaper.aiChatPaper

어노테이터처럼 생각하기: 데이터셋 라벨링 지침 생성

Thinking Like an Annotator: Generation of Dataset Labeling Instructions

June 24, 2023
저자: Nadine Chang, Francesco Ferroni, Michael J. Tarr, Martial Hebert, Deva Ramanan
cs.AI

초록

대규모 데이터셋은 현대 딥러닝에 있어 필수적입니다. 이 방법론을 이해하기 위해서는 데이터셋 투명성(예: "데이터셋 큐레이션, 동기, 구성, 수집 과정 등")이 필요하다는 주장이 있습니다. 그러나 주석자에게 제공된 상세한 정의와 시각적 범주 예시를 공개해야 한다는 제안은 거의 없었습니다. 이 정보는 각 데이터셋에 존재하는 주석 구조를 이해하는 데 중요한 요소입니다. 이러한 라벨은 공개 데이터셋의 핵심이지만, 이를 생성하는 데 사용된 지침을 포함한 데이터셋은 거의 없습니다. 우리는 공개적으로 이용 가능한 라벨링 지침의 부재를 해결하기 위해 새로운 과제인 '라벨링 지침 생성(Labeling Instruction Generation)'을 소개합니다. 라벨링 지침 생성에서는 적절히 주석이 달린 데이터셋을 기반으로: 1) 데이터셋의 각 범주를 시각적으로 대표하는 예시 집합을 생성하고, 2) 각 예시에 해당하는 텍스트 라벨을 제공합니다. 우리는 이 과제를 해결하기 위해 모델 학습이 필요 없는 프레임워크를 제안하며, 대규모 사전 학습된 시각 및 언어 모델을 활용한 새로운 신속 검색 시스템을 포함합니다. 이 프레임워크는 최종 라벨링 지침 집합을 생성하고 그 품질을 평가하는 데 도움을 줄 수 있는 인간 주석자의 대리자 역할을 합니다. 우리의 프레임워크는 데이터셋 범주의 다양한 시각적 및 텍스트 표현을 생성합니다. 최적화된 지침 집합은 NuImages에서 7.06 mAP, COCO에서 12.9 mAP로 우리의 가장 강력한 베이스라인을 능가합니다.
English
Large-scale datasets are essential to modern day deep learning. Advocates argue that understanding these methods requires dataset transparency (e.g. "dataset curation, motivation, composition, collection process, etc..."). However, almost no one has suggested the release of the detailed definitions and visual category examples provided to annotators - information critical to understanding the structure of the annotations present in each dataset. These labels are at the heart of public datasets, yet few datasets include the instructions that were used to generate them. We introduce a new task, Labeling Instruction Generation, to address missing publicly available labeling instructions. In Labeling Instruction Generation, we take a reasonably annotated dataset and: 1) generate a set of examples that are visually representative of each category in the dataset; 2) provide a text label that corresponds to each of the examples. We introduce a framework that requires no model training to solve this task and includes a newly created rapid retrieval system that leverages a large, pre-trained vision and language model. This framework acts as a proxy to human annotators that can help to both generate a final labeling instruction set and evaluate its quality. Our framework generates multiple diverse visual and text representations of dataset categories. The optimized instruction set outperforms our strongest baseline across 5 folds by 7.06 mAP for NuImages and 12.9 mAP for COCO.
PDF81December 15, 2024