ChatPaper.aiChatPaper

Кукушка: свободный наездник ИИ, выведенный массовым питанием в гнезде LLM

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

February 16, 2025
Авторы: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI

Аннотация

Для инкубации передовых крупных языковых моделей (LLM) были тщательно подготовлены обширные данные высокого качества, включая необработанные тексты для предварительного обучения и аннотации для последующего обучения. В отличие от этого, для извлечения информации (IE) данные для предварительного обучения, такие как последовательности с метками BIO, сложно масштабировать. Мы показываем, что модели IE могут использовать ресурсы LLM, переформулируя предсказание следующего токена в извлечение токенов, уже присутствующих в контексте. В частности, наш предложенный парадигма извлечения следующих токенов (NTE) обучает универсальную модель IE, Cuckoo, с 102,6 млн извлекаемых данных, преобразованных из данных для предварительного и последующего обучения LLM. В условиях малого количества обучающих примеров Cuckoo эффективно адаптируется к традиционному и сложному извлечению информации по инструкциям с лучшей производительностью, чем у существующих предварительно обученных моделей IE. В качестве "попутчика" Cuckoo естественным образом развивается вместе с продвижениями в подготовке данных LLM, получая преимущества от улучшений в процессах обучения LLM без дополнительных ручных усилий.
English
Massive high-quality data, both pre-training raw texts and post-training annotations, have been carefully prepared to incubate advanced large language models (LLMs). In contrast, for information extraction (IE), pre-training data, such as BIO-tagged sequences, are hard to scale up. We show that IE models can act as free riders on LLM resources by reframing next-token prediction into extraction for tokens already present in the context. Specifically, our proposed next tokens extraction (NTE) paradigm learns a versatile IE model, Cuckoo, with 102.6M extractive data converted from LLM's pre-training and post-training data. Under the few-shot setting, Cuckoo adapts effectively to traditional and complex instruction-following IE with better performance than existing pre-trained IE models. As a free rider, Cuckoo can naturally evolve with the ongoing advancements in LLM data preparation, benefiting from improvements in LLM training pipelines without additional manual effort.
PDF62February 18, 2025