ChatPaper.aiChatPaper

Candidatos de Prompt, luego Destilar: Un Marco de Profesor-Estudiante para la Anotación de Datos Impulsada por Modelos de Lenguaje de Gran Escala

Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

June 4, 2025
Autores: Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu
cs.AI

Resumen

Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado un potencial significativo para la anotación de datos, reduciendo notablemente los costos laborales asociados con aplicaciones posteriores. Sin embargo, los métodos existentes adoptan principalmente una estrategia agresiva al solicitar al LLM que determine una única etiqueta de referencia para cada muestra no etiquetada. Debido a la incertidumbre inherente en los LLMs, a menudo producen etiquetas incorrectas para muestras difíciles, lo que compromete gravemente la calidad de los datos para aplicaciones posteriores. Motivados por la aversión a la ambigüedad en el comportamiento humano, proponemos un nuevo paradigma de anotación de candidatos en el que se alienta a los modelos de lenguaje de gran escala a generar todas las etiquetas posibles cuando surja incertidumbre. Para garantizar que se proporcionen etiquetas únicas para tareas posteriores, desarrollamos un marco de trabajo de maestro-estudiante llamado CanDist, que destila las anotaciones de candidatos utilizando un Modelo de Lenguaje Pequeño (SLM, por sus siglas en inglés). Además, proporcionamos una justificación rigurosa que demuestra que la destilación de anotaciones de candidatos del LLM maestro ofrece garantías teóricas superiores en comparación con el uso directo de anotaciones únicas. Experimentos extensos en seis tareas de clasificación de texto validan la efectividad de nuestro método propuesto. El código fuente está disponible en https://github.com/MingxuanXia/CanDist.
English
Recently, Large Language Models (LLMs) have demonstrated significant potential for data annotation, markedly reducing the labor costs associated with downstream applications. However, existing methods mostly adopt an aggressive strategy by prompting LLM to determine a single gold label for each unlabeled sample. Due to the inherent uncertainty within LLMs, they often produce incorrect labels for difficult samples, severely compromising the data quality for downstream applications. Motivated by ambiguity aversion in human behaviors, we propose a novel candidate annotation paradigm wherein large language models are encouraged to output all possible labels when incurring uncertainty. To ensure unique labels are provided for downstream tasks, we develop a teacher-student framework CanDist that distills candidate annotations with a Small Language Model (SLM). We further provide a rigorous justification demonstrating that distilling candidate annotations from the teacher LLM offers superior theoretical guarantees compared to directly using single annotations. Extensive experiments across six text classification tasks validate the effectiveness of our proposed method. The source code is available at https://github.com/MingxuanXia/CanDist.
PDF22June 16, 2025