Candidatos de Prompt, luego Destilar: Un Marco de Profesor-Estudiante para la Anotación de Datos Impulsada por Modelos de Lenguaje de Gran Escala
Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation
June 4, 2025
Autores: Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu
cs.AI
Resumen
Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un potencial significativo para la anotación de datos, reduciendo notablemente los costos laborales asociados con aplicaciones posteriores. Sin embargo, los métodos existentes adoptan principalmente una estrategia agresiva al solicitar al LLM que determine una única etiqueta de referencia para cada muestra no etiquetada. Debido a la incertidumbre inherente en los LLMs, a menudo producen etiquetas incorrectas para muestras difíciles, lo que compromete gravemente la calidad de los datos para aplicaciones posteriores. Motivados por la aversión a la ambigüedad en el comportamiento humano, proponemos un nuevo paradigma de anotación de candidatos en el que se alienta a los modelos de lenguaje de gran escala a generar todas las etiquetas posibles cuando surja incertidumbre. Para garantizar que se proporcionen etiquetas únicas para tareas posteriores, desarrollamos un marco de trabajo de maestro-estudiante llamado CanDist, que destila las anotaciones de candidatos utilizando un Modelo de Lenguaje Pequeño (SLM, por sus siglas en inglés). Además, proporcionamos una justificación rigurosa que demuestra que la destilación de anotaciones de candidatos del LLM maestro ofrece garantías teóricas superiores en comparación con el uso directo de anotaciones únicas. Experimentos extensos en seis tareas de clasificación de texto validan la efectividad de nuestro método propuesto. El código fuente está disponible en https://github.com/MingxuanXia/CanDist.
English
Recently, Large Language Models (LLMs) have demonstrated significant
potential for data annotation, markedly reducing the labor costs associated
with downstream applications. However, existing methods mostly adopt an
aggressive strategy by prompting LLM to determine a single gold label for each
unlabeled sample. Due to the inherent uncertainty within LLMs, they often
produce incorrect labels for difficult samples, severely compromising the data
quality for downstream applications. Motivated by ambiguity aversion in human
behaviors, we propose a novel candidate annotation paradigm wherein large
language models are encouraged to output all possible labels when incurring
uncertainty. To ensure unique labels are provided for downstream tasks, we
develop a teacher-student framework CanDist that distills candidate annotations
with a Small Language Model (SLM). We further provide a rigorous justification
demonstrating that distilling candidate annotations from the teacher LLM offers
superior theoretical guarantees compared to directly using single annotations.
Extensive experiments across six text classification tasks validate the
effectiveness of our proposed method. The source code is available at
https://github.com/MingxuanXia/CanDist.