Koekoek: Een IE Free Rider Geboren uit Overvloedige Voeding in het Nest van LLM

Samenvatting

Massieve hoogwaardige data, zowel ruwe teksten voor pre-training als annotaties voor post-training, zijn zorgvuldig voorbereid om geavanceerde grote taalmodellen (LLM's) te ontwikkelen. In tegenstelling tot informatie-extractie (IE) zijn pre-training data, zoals BIO-getagde sequenties, moeilijk op te schalen. We laten zien dat IE-modellen kunnen profiteren van LLM-bronnen door de volgende-token voorspelling te herformuleren naar extractie van tokens die al in de context aanwezig zijn. Specifiek leert ons voorgestelde paradigma voor het extraheren van volgende tokens (NTE) een veelzijdig IE-model, Cuckoo, met 102,6 miljoen extractieve data omgezet van LLM's pre-training en post-training data. Onder de few-shot instelling past Cuckoo zich effectief aan traditionele en complexe instructievolgende IE aan met betere prestaties dan bestaande vooraf getrainde IE-modellen. Als free rider kan Cuckoo zich natuurlijk ontwikkelen met de voortdurende vooruitgang in de voorbereiding van LLM-data, profiterend van verbeteringen in LLM-trainingspipelines zonder extra handmatige inspanning.

English

Massive high-quality data, both pre-training raw texts and post-training annotations, have been carefully prepared to incubate advanced large language models (LLMs). In contrast, for information extraction (IE), pre-training data, such as BIO-tagged sequences, are hard to scale up. We show that IE models can act as free riders on LLM resources by reframing next-token prediction into extraction for tokens already present in the context. Specifically, our proposed next tokens extraction (NTE) paradigm learns a versatile IE model, Cuckoo, with 102.6M extractive data converted from LLM's pre-training and post-training data. Under the few-shot setting, Cuckoo adapts effectively to traditional and complex instruction-following IE with better performance than existing pre-trained IE models. As a free rider, Cuckoo can naturally evolve with the ongoing advancements in LLM data preparation, benefiting from improvements in LLM training pipelines without additional manual effort.

Koekoek: Een IE Free Rider Geboren uit Overvloedige Voeding in het Nest van LLM

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

Samenvatting

Support