クックー:LLMの巣で大量の栄養分によって孵化されたIEのフリーライダー
Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest
February 16, 2025
著者: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI
要旨
大規模な高品質データは、事前トレーニングの生のテキストと事後トレーニングの注釈の両方が慎重に準備され、先進的な大規模言語モデル(LLM)を育成するために用意されています。一方、情報抽出(IE)においては、BIOタグ付きシーケンスなどの事前トレーニングデータを拡大することが難しいです。我々は、IEモデルがLLMリソース上でフリーライダーとして機能できることを示しています。これは、次トークン予測をコンテキスト内に既に存在するトークンの抽出に再構築することで実現されます。具体的には、提案された次トークン抽出(NTE)パラダイムは、102.6Mの抽出データから変換された多目的IEモデルであるCuckooを学習します。この抽出データはLLMの事前トレーニングおよび事後トレーニングデータから変換されました。少数ショット設定下で、Cuckooは従来の複雑な指示に従うIEに効果的に適応し、既存の事前トレーニング済みIEモデルよりも優れたパフォーマンスを発揮します。フリーライダーとして、Cuckooは、LLMデータ準備の進歩に自然に適応し、LLMトレーニングパイプラインの改善により、追加の手作業なしで恩恵を受けることができます。
English
Massive high-quality data, both pre-training raw texts and post-training
annotations, have been carefully prepared to incubate advanced large language
models (LLMs). In contrast, for information extraction (IE), pre-training data,
such as BIO-tagged sequences, are hard to scale up. We show that IE models can
act as free riders on LLM resources by reframing next-token prediction
into extraction for tokens already present in the context. Specifically,
our proposed next tokens extraction (NTE) paradigm learns a versatile IE model,
Cuckoo, with 102.6M extractive data converted from LLM's pre-training
and post-training data. Under the few-shot setting, Cuckoo adapts effectively
to traditional and complex instruction-following IE with better performance
than existing pre-trained IE models. As a free rider, Cuckoo can naturally
evolve with the ongoing advancements in LLM data preparation, benefiting from
improvements in LLM training pipelines without additional manual effort.Summary
AI-Generated Summary