Cucú: Un Intruso de IE Incubado por Nutrición Masiva en el Nido de LLM

Resumen

Se ha preparado cuidadosamente un gran volumen de datos de alta calidad, tanto textos sin procesar para el preentrenamiento como anotaciones posteriores al entrenamiento, para incubar modelos de lenguaje grandes (LLMs) avanzados. En contraste, para la extracción de información (IE, por sus siglas en inglés), los datos de preentrenamiento, como secuencias etiquetadas con BIO, son difíciles de escalar. Mostramos que los modelos de IE pueden aprovechar los recursos de LLM al reformular la predicción del siguiente token en extracción para tokens ya presentes en el contexto. Específicamente, nuestro paradigma propuesto de extracción de siguientes tokens (NTE) aprende un modelo de IE versátil, Cuckoo, con 102.6 millones de datos extractivos convertidos de los datos de preentrenamiento y postentrenamiento de LLM. Bajo la configuración de pocos ejemplos, Cuckoo se adapta eficazmente a la IE tradicional y compleja que sigue instrucciones, con un rendimiento superior a los modelos de IE preentrenados existentes. Como un usuario gratuito, Cuckoo puede evolucionar naturalmente con los avances continuos en la preparación de datos de LLM, beneficiándose de las mejoras en los flujos de entrenamiento de LLM sin esfuerzo manual adicional.

English

Massive high-quality data, both pre-training raw texts and post-training annotations, have been carefully prepared to incubate advanced large language models (LLMs). In contrast, for information extraction (IE), pre-training data, such as BIO-tagged sequences, are hard to scale up. We show that IE models can act as free riders on LLM resources by reframing next-token prediction into extraction for tokens already present in the context. Specifically, our proposed next tokens extraction (NTE) paradigm learns a versatile IE model, Cuckoo, with 102.6M extractive data converted from LLM's pre-training and post-training data. Under the few-shot setting, Cuckoo adapts effectively to traditional and complex instruction-following IE with better performance than existing pre-trained IE models. As a free rider, Cuckoo can naturally evolve with the ongoing advancements in LLM data preparation, benefiting from improvements in LLM training pipelines without additional manual effort.

Cucú: Un Intruso de IE Incubado por Nutrición Masiva en el Nido de LLM

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

Resumen

Support