Candidatos de Prompt, depois Destile: Um Framework de Professor-Aluno para Anotação de Dados Orientada por LLM
Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation
June 4, 2025
Autores: Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu
cs.AI
Resumo
Recentemente, os Modelos de Linguagem de Grande Escala (LLMs) demonstraram um potencial significativo para anotação de dados, reduzindo consideravelmente os custos de mão de obra associados a aplicações subsequentes. No entanto, os métodos existentes adotam principalmente uma estratégia agressiva, solicitando que o LLM determine um único rótulo de referência para cada amostra não rotulada. Devido à incerteza inerente dos LLMs, eles frequentemente produzem rótulos incorretos para amostras difíceis, comprometendo severamente a qualidade dos dados para aplicações subsequentes. Motivados pela aversão à ambiguidade observada em comportamentos humanos, propomos um novo paradigma de anotação de candidatos, no qual os modelos de linguagem de grande escala são incentivados a gerar todos os rótulos possíveis quando enfrentam incerteza. Para garantir que rótulos únicos sejam fornecidos para tarefas subsequentes, desenvolvemos uma estrutura de professor-aluno chamada CanDist, que destila anotações de candidatos com um Modelo de Linguagem de Pequena Escala (SLM). Além disso, fornecemos uma justificativa rigorosa demonstrando que a destilação de anotações de candidatos do LLM professor oferece garantias teóricas superiores em comparação com o uso direto de anotações únicas. Experimentos extensos em seis tarefas de classificação de texto validam a eficácia do método proposto. O código-fonte está disponível em https://github.com/MingxuanXia/CanDist.
English
Recently, Large Language Models (LLMs) have demonstrated significant
potential for data annotation, markedly reducing the labor costs associated
with downstream applications. However, existing methods mostly adopt an
aggressive strategy by prompting LLM to determine a single gold label for each
unlabeled sample. Due to the inherent uncertainty within LLMs, they often
produce incorrect labels for difficult samples, severely compromising the data
quality for downstream applications. Motivated by ambiguity aversion in human
behaviors, we propose a novel candidate annotation paradigm wherein large
language models are encouraged to output all possible labels when incurring
uncertainty. To ensure unique labels are provided for downstream tasks, we
develop a teacher-student framework CanDist that distills candidate annotations
with a Small Language Model (SLM). We further provide a rigorous justification
demonstrating that distilling candidate annotations from the teacher LLM offers
superior theoretical guarantees compared to directly using single annotations.
Extensive experiments across six text classification tasks validate the
effectiveness of our proposed method. The source code is available at
https://github.com/MingxuanXia/CanDist.