ChatPaper.aiChatPaper

Cuculus : Un passager clandestin en IE éclos par une nutrition massive dans le nid de LLM

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

February 16, 2025
Auteurs: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI

Résumé

Des données massives de haute qualité, à la fois des textes bruts pré-entraînés et des annotations post-entraînement, ont été soigneusement préparées pour incuber des modèles de langage larges avancés (LLM). En revanche, pour l'extraction d'informations (IE), les données de pré-entraînement, telles que les séquences étiquetées en BIO, sont difficiles à mettre à l'échelle. Nous montrons que les modèles IE peuvent profiter des ressources des LLM en reformulant la prédiction du jeton suivant en une extraction des jetons déjà présents dans le contexte. Plus précisément, notre paradigme proposé d'extraction des jetons suivants (NTE) apprend un modèle IE polyvalent, Cuckoo, avec 102,6 millions de données extractives converties à partir des données de pré-entraînement et post-entraînement des LLM. Dans le cadre de l'apprentissage à quelques exemples, Cuckoo s'adapte efficacement à l'extraction d'informations traditionnelle et complexe en suivant des instructions, avec de meilleures performances que les modèles IE pré-entraînés existants. En tant que passager clandestin, Cuckoo peut évoluer naturellement avec les progrès continus dans la préparation des données des LLM, bénéficiant des améliorations dans les pipelines d'entraînement des LLM sans effort manuel supplémentaire.
English
Massive high-quality data, both pre-training raw texts and post-training annotations, have been carefully prepared to incubate advanced large language models (LLMs). In contrast, for information extraction (IE), pre-training data, such as BIO-tagged sequences, are hard to scale up. We show that IE models can act as free riders on LLM resources by reframing next-token prediction into extraction for tokens already present in the context. Specifically, our proposed next tokens extraction (NTE) paradigm learns a versatile IE model, Cuckoo, with 102.6M extractive data converted from LLM's pre-training and post-training data. Under the few-shot setting, Cuckoo adapts effectively to traditional and complex instruction-following IE with better performance than existing pre-trained IE models. As a free rider, Cuckoo can naturally evolve with the ongoing advancements in LLM data preparation, benefiting from improvements in LLM training pipelines without additional manual effort.

Summary

AI-Generated Summary

PDF62February 18, 2025