ChatPaper.aiChatPaper

Cuckoo: Um Carona de Extração de Informação Chocado pela Nutrição Maciça no Ninho dos LLMs

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

February 16, 2025
Autores: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI

Resumo

Dados massivos e de alta qualidade, tanto textos brutos de pré-treinamento quanto anotações pós-treinamento, foram cuidadosamente preparados para incubar modelos avançados de linguagem de grande escala (LLMs). Em contraste, para a extração de informações (IE), dados de pré-treinamento, como sequências marcadas com BIO, são difíceis de escalar. Mostramos que modelos de IE podem atuar como "caronas" nos recursos de LLMs ao reformular a previsão do próximo token em extração para tokens já presentes no contexto. Especificamente, nosso paradigma proposto de extração dos próximos tokens (NTE) aprende um modelo versátil de IE, o Cuckoo, com 102,6 milhões de dados extrativos convertidos a partir de dados de pré-treinamento e pós-treinamento de LLMs. Sob o cenário de poucos exemplos, o Cuckoo se adapta efetivamente à IE tradicional e complexa de seguir instruções, com desempenho superior aos modelos de IE pré-treinados existentes. Como um "carona", o Cuckoo pode evoluir naturalmente com os avanços contínuos na preparação de dados de LLMs, beneficiando-se de melhorias nos pipelines de treinamento de LLMs sem esforço manual adicional.
English
Massive high-quality data, both pre-training raw texts and post-training annotations, have been carefully prepared to incubate advanced large language models (LLMs). In contrast, for information extraction (IE), pre-training data, such as BIO-tagged sequences, are hard to scale up. We show that IE models can act as free riders on LLM resources by reframing next-token prediction into extraction for tokens already present in the context. Specifically, our proposed next tokens extraction (NTE) paradigm learns a versatile IE model, Cuckoo, with 102.6M extractive data converted from LLM's pre-training and post-training data. Under the few-shot setting, Cuckoo adapts effectively to traditional and complex instruction-following IE with better performance than existing pre-trained IE models. As a free rider, Cuckoo can naturally evolve with the ongoing advancements in LLM data preparation, benefiting from improvements in LLM training pipelines without additional manual effort.

Summary

AI-Generated Summary

PDF62February 18, 2025