ChatPaper.aiChatPaper

Kuckuck: Ein IE-Freifahrer, der durch massive Ernährung im Nest von LLM ausgebrütet wurde.

Cuckoo: An IE Free Rider Hatched by Massive Nutrition in LLM's Nest

February 16, 2025
Autoren: Letian Peng, Zilong Wang, Feng Yao, Jingbo Shang
cs.AI

Zusammenfassung

Massive Daten von hoher Qualität, sowohl Rohdaten für das Vortraining als auch Annotationen für das Nachtraining, wurden sorgfältig vorbereitet, um fortschrittliche große Sprachmodelle (LLMs) zu entwickeln. Im Gegensatz dazu sind für die Informationsextraktion (IE) Vortrainingsdaten, wie z.B. BIO-markierte Sequenzen, schwer zu skalieren. Wir zeigen, dass IE-Modelle von LLM-Ressourcen profitieren können, indem sie die Vorhersage des nächsten Tokens in die Extraktion für bereits im Kontext vorhandene Tokens umformulieren. Speziell lernt unser vorgeschlagenes Extraktionsparadigma für nächste Tokens (NTE) ein vielseitiges IE-Modell, Cuckoo, mit 102,6 Millionen extrahierten Daten, die aus den Vortrainings- und Nachtrainingsdaten des LLMs konvertiert wurden. Unter der Few-Shot-Einstellung passt sich Cuckoo effektiv an traditionelle und komplexe Anweisungsfolgen-IE an und erzielt bessere Leistungen als bestehende vortrainierte IE-Modelle. Als "Free Rider" kann Cuckoo sich natürlich mit den laufenden Fortschritten in der Datenvorbereitung für LLMs weiterentwickeln und von Verbesserungen in den Trainingspipelines für LLMs profitieren, ohne zusätzlichen manuellen Aufwand.
English
Massive high-quality data, both pre-training raw texts and post-training annotations, have been carefully prepared to incubate advanced large language models (LLMs). In contrast, for information extraction (IE), pre-training data, such as BIO-tagged sequences, are hard to scale up. We show that IE models can act as free riders on LLM resources by reframing next-token prediction into extraction for tokens already present in the context. Specifically, our proposed next tokens extraction (NTE) paradigm learns a versatile IE model, Cuckoo, with 102.6M extractive data converted from LLM's pre-training and post-training data. Under the few-shot setting, Cuckoo adapts effectively to traditional and complex instruction-following IE with better performance than existing pre-trained IE models. As a free rider, Cuckoo can naturally evolve with the ongoing advancements in LLM data preparation, benefiting from improvements in LLM training pipelines without additional manual effort.

Summary

AI-Generated Summary

PDF62February 18, 2025