협력 모델링: LLM 도구 활용을 통한 최소한의 인간 노력으로 주관적 시각 분류 가능
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use
March 5, 2024
저자: Imad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig
cs.AI
초록
콘텐츠 검열부터 야생동물 보존에 이르기까지, 미묘하거나 주관적인 시각적 개념을 인식할 수 있는 모델을 요구하는 애플리케이션의 수가 증가하고 있다. 전통적으로, 이러한 개념을 위한 분류기를 개발하려면 훈련에 필요한 데이터를 식별하고 주석을 달기 위해 수 시간, 수일, 심지어 수개월에 걸친 상당한 수작업이 필요했다. 최근 제안된 Agile Modeling 기술을 사용하더라도, 단일 분류기를 훈련시키기 위해 사용자는 단조롭고 반복적인 데이터 라벨링 작업을 30분 이상 소요해야 한다. Fiske의 인지적 인색 이론(Cognitive Miser theory)을 바탕으로, 우리는 인간의 라벨링 작업을 자연어 상호작용으로 대체하여 개념을 정의하는 데 필요한 총 노력을 크게 줄이는 새로운 프레임워크를 제안한다: 2,000개의 이미지에 라벨을 붙이는 대신 100개의 이미지와 몇 가지 자연어 상호작용만으로도 충분하다. 우리의 프레임워크는 최근의 기초 모델(Foundation Models), 즉 대형 언어 모델과 시각-언어 모델의 발전을 활용하여 대화를 통해 개념 공간을 정의하고 훈련 데이터 포인트에 자동으로 라벨을 붙인다. 가장 중요한 것은, 우리의 프레임워크가 크라우드소싱 주석의 필요성을 없앤다는 점이다. 또한, 우리의 프레임워크는 비용에 민감한 시나리오에서도 배포 가능한 경량 분류 모델을 최종적으로 생성한다. 15개의 주관적 개념과 2개의 공개 이미지 분류 데이터셋에서, 우리가 훈련한 모델은 전통적인 Agile Modeling뿐만 아니라 ALIGN, CLIP, CuPL과 같은 최첨단 제로샷 분류 모델 및 PaLI-X와 같은 대형 시각 질의응답 모델을 능가하는 성능을 보였다.
English
From content moderation to wildlife conservation, the number of applications
that require models to recognize nuanced or subjective visual concepts is
growing. Traditionally, developing classifiers for such concepts requires
substantial manual effort measured in hours, days, or even months to identify
and annotate data needed for training. Even with recently proposed Agile
Modeling techniques, which enable rapid bootstrapping of image classifiers,
users are still required to spend 30 minutes or more of monotonous, repetitive
data labeling just to train a single classifier. Drawing on Fiske's Cognitive
Miser theory, we propose a new framework that alleviates manual effort by
replacing human labeling with natural language interactions, reducing the total
effort required to define a concept by an order of magnitude: from labeling
2,000 images to only 100 plus some natural language interactions. Our framework
leverages recent advances in foundation models, both large language models and
vision-language models, to carve out the concept space through conversation and
by automatically labeling training data points. Most importantly, our framework
eliminates the need for crowd-sourced annotations. Moreover, our framework
ultimately produces lightweight classification models that are deployable in
cost-sensitive scenarios. Across 15 subjective concepts and across 2 public
image classification datasets, our trained models outperform traditional Agile
Modeling as well as state-of-the-art zero-shot classification models like
ALIGN, CLIP, CuPL, and large visual question-answering models like PaLI-X.