ChatPaper.aiChatPaper

프롬프트 후보 생성 후 정제: 대규모 언어 모델 기반 데이터 주석을 위한 교사-학생 프레임워크

Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

June 4, 2025
저자: Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu
cs.AI

초록

최근 대형 언어 모델(LLMs)은 데이터 주석 작업에서 상당한 잠재력을 보여주며, 다운스트림 애플리케이션과 관련된 노동 비용을 현저히 줄이고 있습니다. 그러나 기존 방법들은 대부분 공격적인 전략을 채택하여 LLM이 각각의 레이블이 없는 샘플에 대해 단일 골드 레이블을 결정하도록 유도합니다. LLM 내재된 불확실성으로 인해, 어려운 샘플에 대해 종종 잘못된 레이블을 생성하여 다운스트림 애플리케이션의 데이터 품질을 심각하게 저하시킵니다. 인간 행동에서의 모호성 회피 현상에 동기를 받아, 우리는 불확실성이 발생할 때 대형 언어 모델이 가능한 모든 레이블을 출력하도록 유도하는 새로운 후보 주석 패러다임을 제안합니다. 다운스트림 작업을 위해 고유한 레이블을 제공하기 위해, 우리는 소형 언어 모델(SLM)을 사용하여 후보 주석을 정제하는 교사-학생 프레임워크인 CanDist를 개발했습니다. 또한, 교사 LLM으로부터 후보 주석을 정제하는 것이 단일 주석을 직접 사용하는 것보다 우수한 이론적 보장을 제공한다는 엄밀한 근거를 제시합니다. 여섯 가지 텍스트 분류 작업에 걸친 광범위한 실험을 통해 우리가 제안한 방법의 효과성을 검증했습니다. 소스 코드는 https://github.com/MingxuanXia/CanDist에서 확인할 수 있습니다.
English
Recently, Large Language Models (LLMs) have demonstrated significant potential for data annotation, markedly reducing the labor costs associated with downstream applications. However, existing methods mostly adopt an aggressive strategy by prompting LLM to determine a single gold label for each unlabeled sample. Due to the inherent uncertainty within LLMs, they often produce incorrect labels for difficult samples, severely compromising the data quality for downstream applications. Motivated by ambiguity aversion in human behaviors, we propose a novel candidate annotation paradigm wherein large language models are encouraged to output all possible labels when incurring uncertainty. To ensure unique labels are provided for downstream tasks, we develop a teacher-student framework CanDist that distills candidate annotations with a Small Language Model (SLM). We further provide a rigorous justification demonstrating that distilling candidate annotations from the teacher LLM offers superior theoretical guarantees compared to directly using single annotations. Extensive experiments across six text classification tasks validate the effectiveness of our proposed method. The source code is available at https://github.com/MingxuanXia/CanDist.
PDF22June 16, 2025