Cucú: Un Intruso de IE Incubado por Nutrición Masiva en el Nido de LLM
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest
February 16, 2025
Autores: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI
Resumen
Se ha preparado cuidadosamente un gran volumen de datos de alta calidad, tanto textos sin procesar para el preentrenamiento como anotaciones posteriores al entrenamiento, para incubar modelos de lenguaje grandes (LLMs) avanzados. En contraste, para la extracción de información (IE, por sus siglas en inglés), los datos de preentrenamiento, como secuencias etiquetadas con BIO, son difíciles de escalar. Mostramos que los modelos de IE pueden aprovechar los recursos de LLM al reformular la predicción del siguiente token en extracción para tokens ya presentes en el contexto. Específicamente, nuestro paradigma propuesto de extracción de siguientes tokens (NTE) aprende un modelo de IE versátil, Cuckoo, con 102.6 millones de datos extractivos convertidos de los datos de preentrenamiento y postentrenamiento de LLM. Bajo la configuración de pocos ejemplos, Cuckoo se adapta eficazmente a la IE tradicional y compleja que sigue instrucciones, con un rendimiento superior a los modelos de IE preentrenados existentes. Como un usuario gratuito, Cuckoo puede evolucionar naturalmente con los avances continuos en la preparación de datos de LLM, beneficiándose de las mejoras en los flujos de entrenamiento de LLM sin esfuerzo manual adicional.
English
Massive high-quality data, both pre-training raw texts and post-training
annotations, have been carefully prepared to incubate advanced large language
models (LLMs). In contrast, for information extraction (IE), pre-training data,
such as BIO-tagged sequences, are hard to scale up. We show that IE models can
act as free riders on LLM resources by reframing next-token prediction
into extraction for tokens already present in the context. Specifically,
our proposed next tokens extraction (NTE) paradigm learns a versatile IE model,
Cuckoo, with 102.6M extractive data converted from LLM's pre-training
and post-training data. Under the few-shot setting, Cuckoo adapts effectively
to traditional and complex instruction-following IE with better performance
than existing pre-trained IE models. As a free rider, Cuckoo can naturally
evolve with the ongoing advancements in LLM data preparation, benefiting from
improvements in LLM training pipelines without additional manual effort.Summary
AI-Generated Summary