ChatPaper.aiChatPaper

Кандидаты для промптов, затем дистилляция: учитель-ученик фреймворк для аннотирования данных с использованием языковых моделей

Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

June 4, 2025
Авторы: Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu
cs.AI

Аннотация

В последнее время крупные языковые модели (LLM) продемонстрировали значительный потенциал для аннотирования данных, существенно снижая трудозатраты, связанные с последующими приложениями. Однако существующие методы в основном используют агрессивную стратегию, предлагая LLM определить единственный "золотой" метку для каждого неразмеченного образца. Из-за присущей LLM неопределенности они часто выдают некорректные метки для сложных образцов, что серьезно ухудшает качество данных для последующих задач. Вдохновленные склонностью людей избегать неоднозначности, мы предлагаем новую парадигму кандидатного аннотирования, в которой крупные языковые модели поощряются к выдаче всех возможных меток при возникновении неопределенности. Чтобы обеспечить уникальные метки для последующих задач, мы разработали учительско-ученическую архитектуру CanDist, которая дистиллирует кандидатные аннотации с помощью малой языковой модели (SLM). Мы также предоставляем строгое обоснование, демонстрирующее, что дистилляция кандидатных аннотаций от учителя LLM предлагает более надежные теоретические гарантии по сравнению с использованием единичных аннотаций. Эксперименты на шести задачах классификации текста подтверждают эффективность предложенного метода. Исходный код доступен по адресу https://github.com/MingxuanXia/CanDist.
English
Recently, Large Language Models (LLMs) have demonstrated significant potential for data annotation, markedly reducing the labor costs associated with downstream applications. However, existing methods mostly adopt an aggressive strategy by prompting LLM to determine a single gold label for each unlabeled sample. Due to the inherent uncertainty within LLMs, they often produce incorrect labels for difficult samples, severely compromising the data quality for downstream applications. Motivated by ambiguity aversion in human behaviors, we propose a novel candidate annotation paradigm wherein large language models are encouraged to output all possible labels when incurring uncertainty. To ensure unique labels are provided for downstream tasks, we develop a teacher-student framework CanDist that distills candidate annotations with a Small Language Model (SLM). We further provide a rigorous justification demonstrating that distilling candidate annotations from the teacher LLM offers superior theoretical guarantees compared to directly using single annotations. Extensive experiments across six text classification tasks validate the effectiveness of our proposed method. The source code is available at https://github.com/MingxuanXia/CanDist.
PDF22June 16, 2025