Candidats de Prompt, puis Distillation : Un Cadre Enseignant-Élève pour l'Annotation de Données Pilotée par les LLM
Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation
June 4, 2025
Auteurs: Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu
cs.AI
Résumé
Récemment, les modèles de langage de grande taille (LLMs) ont démontré un potentiel significatif pour l'annotation de données, réduisant considérablement les coûts de main-d'œuvre associés aux applications en aval. Cependant, les méthodes existantes adoptent principalement une stratégie agressive en incitant le LLM à déterminer une seule étiquette de référence pour chaque échantillon non étiqueté. En raison de l'incertitude inhérente aux LLMs, ils produisent souvent des étiquettes incorrectes pour les échantillons difficiles, compromettant gravement la qualité des données pour les applications en aval. Motivés par l'aversion à l'ambiguïté observée dans les comportements humains, nous proposons un nouveau paradigme d'annotation candidat dans lequel les modèles de langage de grande taille sont encouragés à produire toutes les étiquettes possibles en cas d'incertitude. Pour garantir que des étiquettes uniques soient fournies pour les tâches en aval, nous développons un cadre enseignant-élève, CanDist, qui distille les annotations candidates avec un modèle de langage de petite taille (SLM). Nous fournissons également une justification rigoureuse démontrant que la distillation des annotations candidates à partir du LLM enseignant offre des garanties théoriques supérieures par rapport à l'utilisation directe d'annotations uniques. Des expériences approfondies sur six tâches de classification de texte valident l'efficacité de notre méthode proposée. Le code source est disponible à l'adresse https://github.com/MingxuanXia/CanDist.
English
Recently, Large Language Models (LLMs) have demonstrated significant
potential for data annotation, markedly reducing the labor costs associated
with downstream applications. However, existing methods mostly adopt an
aggressive strategy by prompting LLM to determine a single gold label for each
unlabeled sample. Due to the inherent uncertainty within LLMs, they often
produce incorrect labels for difficult samples, severely compromising the data
quality for downstream applications. Motivated by ambiguity aversion in human
behaviors, we propose a novel candidate annotation paradigm wherein large
language models are encouraged to output all possible labels when incurring
uncertainty. To ensure unique labels are provided for downstream tasks, we
develop a teacher-student framework CanDist that distills candidate annotations
with a Small Language Model (SLM). We further provide a rigorous justification
demonstrating that distilling candidate annotations from the teacher LLM offers
superior theoretical guarantees compared to directly using single annotations.
Extensive experiments across six text classification tasks validate the
effectiveness of our proposed method. The source code is available at
https://github.com/MingxuanXia/CanDist.