Candidati di Prompt, poi Distilla: Un Framework Docente-Studente per l'Annotazione dei Dati Guidata da LLM
Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation
June 4, 2025
Autori: Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu
cs.AI
Abstract
Recentemente, i Large Language Models (LLM) hanno dimostrato un potenziale significativo per l'annotazione dei dati, riducendo notevolmente i costi di manodopera associati alle applicazioni downstream. Tuttavia, i metodi esistenti adottano prevalentemente una strategia aggressiva, sollecitando l'LLM a determinare un'unica etichetta "gold" per ciascun campione non etichettato. A causa dell'incertezza intrinseca degli LLM, spesso producono etichette errate per i campioni difficili, compromettendo gravemente la qualità dei dati per le applicazioni downstream. Ispirati dall'avversione all'ambiguità nei comportamenti umani, proponiamo un nuovo paradigma di annotazione candidata in cui i grandi modelli linguistici sono incoraggiati a produrre tutte le possibili etichette in caso di incertezza. Per garantire che vengano fornite etichette univoche per i task downstream, sviluppiamo un framework teacher-student, CanDist, che distilla le annotazioni candidate utilizzando un Small Language Model (SLM). Forniamo inoltre una rigorosa giustificazione che dimostra come la distillazione delle annotazioni candidate dal teacher LLM offra garanzie teoriche superiori rispetto all'uso diretto di annotazioni singole. Esperimenti estesi su sei task di classificazione del testo convalidano l'efficacia del metodo proposto. Il codice sorgente è disponibile all'indirizzo https://github.com/MingxuanXia/CanDist.
English
Recently, Large Language Models (LLMs) have demonstrated significant
potential for data annotation, markedly reducing the labor costs associated
with downstream applications. However, existing methods mostly adopt an
aggressive strategy by prompting LLM to determine a single gold label for each
unlabeled sample. Due to the inherent uncertainty within LLMs, they often
produce incorrect labels for difficult samples, severely compromising the data
quality for downstream applications. Motivated by ambiguity aversion in human
behaviors, we propose a novel candidate annotation paradigm wherein large
language models are encouraged to output all possible labels when incurring
uncertainty. To ensure unique labels are provided for downstream tasks, we
develop a teacher-student framework CanDist that distills candidate annotations
with a Small Language Model (SLM). We further provide a rigorous justification
demonstrating that distilling candidate annotations from the teacher LLM offers
superior theoretical guarantees compared to directly using single annotations.
Extensive experiments across six text classification tasks validate the
effectiveness of our proposed method. The source code is available at
https://github.com/MingxuanXia/CanDist.