Candidati di Prompt, poi Distilla: Un Framework Docente-Studente per l'Annotazione dei Dati Guidata da LLM

Abstract

Recentemente, i Large Language Models (LLM) hanno dimostrato un potenziale significativo per l'annotazione dei dati, riducendo notevolmente i costi di manodopera associati alle applicazioni downstream. Tuttavia, i metodi esistenti adottano prevalentemente una strategia aggressiva, sollecitando l'LLM a determinare un'unica etichetta "gold" per ciascun campione non etichettato. A causa dell'incertezza intrinseca degli LLM, spesso producono etichette errate per i campioni difficili, compromettendo gravemente la qualità dei dati per le applicazioni downstream. Ispirati dall'avversione all'ambiguità nei comportamenti umani, proponiamo un nuovo paradigma di annotazione candidata in cui i grandi modelli linguistici sono incoraggiati a produrre tutte le possibili etichette in caso di incertezza. Per garantire che vengano fornite etichette univoche per i task downstream, sviluppiamo un framework teacher-student, CanDist, che distilla le annotazioni candidate utilizzando un Small Language Model (SLM). Forniamo inoltre una rigorosa giustificazione che dimostra come la distillazione delle annotazioni candidate dal teacher LLM offra garanzie teoriche superiori rispetto all'uso diretto di annotazioni singole. Esperimenti estesi su sei task di classificazione del testo convalidano l'efficacia del metodo proposto. Il codice sorgente è disponibile all'indirizzo https://github.com/MingxuanXia/CanDist.

English

Recently, Large Language Models (LLMs) have demonstrated significant potential for data annotation, markedly reducing the labor costs associated with downstream applications. However, existing methods mostly adopt an aggressive strategy by prompting LLM to determine a single gold label for each unlabeled sample. Due to the inherent uncertainty within LLMs, they often produce incorrect labels for difficult samples, severely compromising the data quality for downstream applications. Motivated by ambiguity aversion in human behaviors, we propose a novel candidate annotation paradigm wherein large language models are encouraged to output all possible labels when incurring uncertainty. To ensure unique labels are provided for downstream tasks, we develop a teacher-student framework CanDist that distills candidate annotations with a Small Language Model (SLM). We further provide a rigorous justification demonstrating that distilling candidate annotations from the teacher LLM offers superior theoretical guarantees compared to directly using single annotations. Extensive experiments across six text classification tasks validate the effectiveness of our proposed method. The source code is available at https://github.com/MingxuanXia/CanDist.

Candidati di Prompt, poi Distilla: Un Framework Docente-Studente per l'Annotazione dei Dati Guidata da LLM

Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

Abstract

Support