ChatPaper.aiChatPaper

Prompt-Kandidaten, dann Destillieren: Ein Lehrer-Schüler-Framework für LLM-gestützte Datenannotation

Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

June 4, 2025
Autoren: Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu
cs.AI

Zusammenfassung

Kürzlich haben Large Language Models (LLMs) ein erhebliches Potenzial für die Datenannotation gezeigt, wodurch die Arbeitskosten für nachgelagerte Anwendungen deutlich reduziert werden konnten. Bisherige Methoden verfolgen jedoch meist eine aggressive Strategie, bei der der LLM aufgefordert wird, für jede unmarkierte Probe eine einzige Gold-Label zu bestimmen. Aufgrund der inhärenten Unsicherheit in LLMs produzieren diese oft falsche Labels für schwierige Proben, was die Datenqualität für nachgelagerte Anwendungen erheblich beeinträchtigt. Inspiriert von der Ambivalenzaversion im menschlichen Verhalten schlagen wir ein neuartiges Kandidaten-Annotation-Paradigma vor, bei dem Large Language Models dazu ermutigt werden, bei Unsicherheit alle möglichen Labels auszugeben. Um sicherzustellen, dass eindeutige Labels für nachgelagerte Aufgaben bereitgestellt werden, entwickeln wir ein Lehrer-Schüler-Framework namens CanDist, das Kandidaten-Annotationen mit einem Small Language Model (SLM) destilliert. Wir liefern zudem eine rigorose Begründung, die zeigt, dass die Destillation von Kandidaten-Annotationen vom Lehrer-LLM bessere theoretische Garantien bietet als die direkte Verwendung einzelner Annotationen. Umfangreiche Experimente über sechs Textklassifizierungsaufgaben bestätigen die Wirksamkeit unserer vorgeschlagenen Methode. Der Quellcode ist unter https://github.com/MingxuanXia/CanDist verfügbar.
English
Recently, Large Language Models (LLMs) have demonstrated significant potential for data annotation, markedly reducing the labor costs associated with downstream applications. However, existing methods mostly adopt an aggressive strategy by prompting LLM to determine a single gold label for each unlabeled sample. Due to the inherent uncertainty within LLMs, they often produce incorrect labels for difficult samples, severely compromising the data quality for downstream applications. Motivated by ambiguity aversion in human behaviors, we propose a novel candidate annotation paradigm wherein large language models are encouraged to output all possible labels when incurring uncertainty. To ensure unique labels are provided for downstream tasks, we develop a teacher-student framework CanDist that distills candidate annotations with a Small Language Model (SLM). We further provide a rigorous justification demonstrating that distilling candidate annotations from the teacher LLM offers superior theoretical guarantees compared to directly using single annotations. Extensive experiments across six text classification tasks validate the effectiveness of our proposed method. The source code is available at https://github.com/MingxuanXia/CanDist.
PDF22June 16, 2025