Koekoek: Een IE Free Rider Geboren uit Overvloedige Voeding in het Nest van LLM
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest
February 16, 2025
Auteurs: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI
Samenvatting
Massieve hoogwaardige data, zowel ruwe teksten voor pre-training als annotaties voor post-training, zijn zorgvuldig voorbereid om geavanceerde grote taalmodellen (LLM's) te ontwikkelen. In tegenstelling tot informatie-extractie (IE) zijn pre-training data, zoals BIO-getagde sequenties, moeilijk op te schalen. We laten zien dat IE-modellen kunnen profiteren van LLM-bronnen door de volgende-token voorspelling te herformuleren naar extractie van tokens die al in de context aanwezig zijn. Specifiek leert ons voorgestelde paradigma voor het extraheren van volgende tokens (NTE) een veelzijdig IE-model, Cuckoo, met 102,6 miljoen extractieve data omgezet van LLM's pre-training en post-training data. Onder de few-shot instelling past Cuckoo zich effectief aan traditionele en complexe instructievolgende IE aan met betere prestaties dan bestaande vooraf getrainde IE-modellen. Als free rider kan Cuckoo zich natuurlijk ontwikkelen met de voortdurende vooruitgang in de voorbereiding van LLM-data, profiterend van verbeteringen in LLM-trainingspipelines zonder extra handmatige inspanning.
English
Massive high-quality data, both pre-training raw texts and post-training
annotations, have been carefully prepared to incubate advanced large language
models (LLMs). In contrast, for information extraction (IE), pre-training data,
such as BIO-tagged sequences, are hard to scale up. We show that IE models can
act as free riders on LLM resources by reframing next-token prediction
into extraction for tokens already present in the context. Specifically,
our proposed next tokens extraction (NTE) paradigm learns a versatile IE model,
Cuckoo, with 102.6M extractive data converted from LLM's pre-training
and post-training data. Under the few-shot setting, Cuckoo adapts effectively
to traditional and complex instruction-following IE with better performance
than existing pre-trained IE models. As a free rider, Cuckoo can naturally
evolve with the ongoing advancements in LLM data preparation, benefiting from
improvements in LLM training pipelines without additional manual effort.Summary
AI-Generated Summary