ChatPaper.aiChatPaper

OneGen: Effiziente Ein-Durchlauf-vereinheitlichte Generierung und Abruf für LLMs

OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

September 8, 2024
Autoren: Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang
cs.AI

Zusammenfassung

Trotz der jüngsten Fortschritte bei Large Language Models (LLMs), die die generativen Fähigkeiten für verschiedene NLP-Aufgaben erheblich verbessert haben, stehen LLMs immer noch vor Einschränkungen bei der direkten Bewältigung von Abrufaufgaben. Viele praktische Anwendungen erfordern jedoch die nahtlose Integration von Abruf und Generierung. Dieser Artikel stellt ein neuartiges und effizientes Ein-Durchgangs-Generierungs- und Abruf-Framework (OneGen) vor, das entwickelt wurde, um die Leistung von LLMs bei Aufgaben zu verbessern, die sowohl Generierung als auch Abruf erfordern. Das vorgeschlagene Framework überbrückt die traditionell getrennten Schulungsansätze für Generierung und Abruf, indem Abruf-Token autoregressiv generiert werden. Dies ermöglicht einem einzigen LLM, beide Aufgaben gleichzeitig in einem vereinheitlichten Vorwärtspass zu bewältigen. Wir führen Experimente mit zwei verschiedenen Arten von Verbundaufgaben, RAG und Entity Linking, durch, um die Einsetzbarkeit, Wirksamkeit und Effizienz von OneGen bei Schulung und Inferenz zu validieren. Darüber hinaus zeigen unsere Ergebnisse, dass die Integration von Generierung und Abruf im selben Kontext die generativen Fähigkeiten von LLMs bewahrt und gleichzeitig die Abrufleistung verbessert. Nach unserem Kenntnisstand ist OneGen das erste, das es LLMs ermöglicht, während der Generierung Vektorabrufe durchzuführen.
English
Despite the recent advancements in Large Language Models (LLMs), which have significantly enhanced the generative capabilities for various NLP tasks, LLMs still face limitations in directly handling retrieval tasks. However, many practical applications demand the seamless integration of both retrieval and generation. This paper introduces a novel and efficient One-pass Generation and retrieval framework (OneGen), designed to improve LLMs' performance on tasks that require both generation and retrieval. The proposed framework bridges the traditionally separate training approaches for generation and retrieval by incorporating retrieval tokens generated autoregressively. This enables a single LLM to handle both tasks simultaneously in a unified forward pass. We conduct experiments on two distinct types of composite tasks, RAG and Entity Linking, to validate the pluggability, effectiveness, and efficiency of OneGen in training and inference. Furthermore, our results show that integrating generation and retrieval within the same context preserves the generative capabilities of LLMs while improving retrieval performance. To the best of our knowledge, OneGen is the first to enable LLMs to conduct vector retrieval during the generation.

Summary

AI-Generated Summary

PDF333November 16, 2024