ChatPaper.aiChatPaper

Cuckoo: Un Free Rider dell'IE Nato dalla Massiccia Nutrizione nel Nido degli LLM

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

February 16, 2025
Autori: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI

Abstract

Dati massicci e di alta qualità, sia testi grezzi per il pre-training che annotazioni post-training, sono stati accuratamente preparati per incubare avanzati modelli linguistici di grandi dimensioni (LLM). Al contrario, per l'estrazione di informazioni (IE), i dati di pre-training, come sequenze etichettate con BIO, sono difficili da scalare. Dimostriamo che i modelli di IE possono agire come free rider sulle risorse degli LLM riformulando la previsione del token successivo in un'estrazione per token già presenti nel contesto. Nello specifico, il nostro paradigma proposto di estrazione dei token successivi (NTE) apprende un modello di IE versatile, Cuckoo, con 102,6 milioni di dati estrattivi convertiti dai dati di pre-training e post-training degli LLM. In contesti few-shot, Cuckoo si adatta efficacemente a IE tradizionali e complessi che seguono istruzioni, ottenendo prestazioni migliori rispetto ai modelli di IE pre-addestrati esistenti. Come free rider, Cuckoo può evolversi naturalmente con i continui progressi nella preparazione dei dati degli LLM, beneficiando dei miglioramenti nelle pipeline di addestramento degli LLM senza ulteriori sforzi manuali.
English
Massive high-quality data, both pre-training raw texts and post-training annotations, have been carefully prepared to incubate advanced large language models (LLMs). In contrast, for information extraction (IE), pre-training data, such as BIO-tagged sequences, are hard to scale up. We show that IE models can act as free riders on LLM resources by reframing next-token prediction into extraction for tokens already present in the context. Specifically, our proposed next tokens extraction (NTE) paradigm learns a versatile IE model, Cuckoo, with 102.6M extractive data converted from LLM's pre-training and post-training data. Under the few-shot setting, Cuckoo adapts effectively to traditional and complex instruction-following IE with better performance than existing pre-trained IE models. As a free rider, Cuckoo can naturally evolve with the ongoing advancements in LLM data preparation, benefiting from improvements in LLM training pipelines without additional manual effort.

Summary

AI-Generated Summary

PDF62February 18, 2025