Prompt Kandidaten, dan Distilleer: Een Leraar-Leerling Framework voor LLM-gestuurde Dataannotatie

Samenvatting

Onlangs hebben Large Language Models (LLM's) aanzienlijk potentieel getoond voor data-annotatie, waardoor de arbeidskosten voor downstream-toepassingen aanzienlijk worden verlaagd. Bestaande methoden hanteren echter meestal een agressieve strategie door de LLM te stimuleren om een enkele gouden label te bepalen voor elk ongelabeld voorbeeld. Vanwege de inherente onzekerheid binnen LLM's produceren ze vaak incorrecte labels voor moeilijke voorbeelden, wat de data-kwaliteit voor downstream-toepassingen ernstig aantast. Geïnspireerd door ambiguïteitsaversie in menselijk gedrag, stellen we een nieuw kandidaat-annotatieparadigma voor waarin grote taalmodellen worden aangemoedigd om alle mogelijke labels te outputten bij onzekerheid. Om unieke labels te garanderen voor downstream-taken, ontwikkelen we een leraar-leerling-framework genaamd CanDist dat kandidaat-annotaties destilleert met een Small Language Model (SLM). We bieden verder een rigoureuze rechtvaardiging die aantoont dat het destilleren van kandidaat-annotaties van de leraar-LLM superieure theoretische garanties biedt in vergelijking met het direct gebruiken van enkele annotaties. Uitgebreide experimenten over zes tekstclassificatietaken valideren de effectiviteit van onze voorgestelde methode. De broncode is beschikbaar op https://github.com/MingxuanXia/CanDist.

English

Recently, Large Language Models (LLMs) have demonstrated significant potential for data annotation, markedly reducing the labor costs associated with downstream applications. However, existing methods mostly adopt an aggressive strategy by prompting LLM to determine a single gold label for each unlabeled sample. Due to the inherent uncertainty within LLMs, they often produce incorrect labels for difficult samples, severely compromising the data quality for downstream applications. Motivated by ambiguity aversion in human behaviors, we propose a novel candidate annotation paradigm wherein large language models are encouraged to output all possible labels when incurring uncertainty. To ensure unique labels are provided for downstream tasks, we develop a teacher-student framework CanDist that distills candidate annotations with a Small Language Model (SLM). We further provide a rigorous justification demonstrating that distilling candidate annotations from the teacher LLM offers superior theoretical guarantees compared to directly using single annotations. Extensive experiments across six text classification tasks validate the effectiveness of our proposed method. The source code is available at https://github.com/MingxuanXia/CanDist.

Prompt Kandidaten, dan Distilleer: Een Leraar-Leerling Framework voor LLM-gestuurde Dataannotatie

Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

Samenvatting

Support