ChatPaper.aiChatPaper

OneGen: Efficiënte Eén-Pass Uniforme Generatie en Ophalen voor LLM's

OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

September 8, 2024
Auteurs: Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang
cs.AI

Samenvatting

Ondanks de recente vooruitgang in Grote Taalmodellen (LLMs), die aanzienlijk hebben bijgedragen aan de generatieve mogelijkheden voor verschillende NLP-taken, ondervinden LLMs nog steeds beperkingen bij het direct verwerken van ophaaltaken. Veel praktische toepassingen vereisen echter de naadloze integratie van zowel ophalen als generatie. Dit artikel introduceert een nieuw en efficiënt kader voor Eén-pas Generatie en ophalen (OneGen), ontworpen om de prestaties van LLMs te verbeteren bij taken die zowel generatie als ophalen vereisen. Het voorgestelde kader overbrugt de traditioneel gescheiden trainingsbenaderingen voor generatie en ophalen door ophaaltokens autoregressief te genereren. Dit maakt het mogelijk dat een enkel LLM beide taken gelijktijdig afhandelt in een verenigde voorwaartse pas. We voeren experimenten uit op twee verschillende soorten samengestelde taken, RAG en Entiteitkoppeling, om de plugbaarheid, effectiviteit en efficiëntie van OneGen bij training en inferentie te valideren. Bovendien tonen onze resultaten aan dat het integreren van generatie en ophalen binnen dezelfde context de generatieve mogelijkheden van LLMs behoudt en tegelijkertijd de ophaalprestaties verbetert. Voor zover wij weten, is OneGen de eerste die LLMs in staat stelt om vectorophalen uit te voeren tijdens de generatie.
English
Despite the recent advancements in Large Language Models (LLMs), which have significantly enhanced the generative capabilities for various NLP tasks, LLMs still face limitations in directly handling retrieval tasks. However, many practical applications demand the seamless integration of both retrieval and generation. This paper introduces a novel and efficient One-pass Generation and retrieval framework (OneGen), designed to improve LLMs' performance on tasks that require both generation and retrieval. The proposed framework bridges the traditionally separate training approaches for generation and retrieval by incorporating retrieval tokens generated autoregressively. This enables a single LLM to handle both tasks simultaneously in a unified forward pass. We conduct experiments on two distinct types of composite tasks, RAG and Entity Linking, to validate the pluggability, effectiveness, and efficiency of OneGen in training and inference. Furthermore, our results show that integrating generation and retrieval within the same context preserves the generative capabilities of LLMs while improving retrieval performance. To the best of our knowledge, OneGen is the first to enable LLMs to conduct vector retrieval during the generation.

Summary

AI-Generated Summary

PDF333November 16, 2024