OneGen: Efficiënte Eén-Pass Uniforme Generatie en Ophalen voor LLM's
OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs
September 8, 2024
Auteurs: Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang
cs.AI
Samenvatting
Ondanks de recente vooruitgang in Grote Taalmodellen (LLMs), die aanzienlijk hebben bijgedragen aan de generatieve mogelijkheden voor verschillende NLP-taken, ondervinden LLMs nog steeds beperkingen bij het direct verwerken van ophaaltaken. Veel praktische toepassingen vereisen echter de naadloze integratie van zowel ophalen als generatie. Dit artikel introduceert een nieuw en efficiënt kader voor Eén-pas Generatie en ophalen (OneGen), ontworpen om de prestaties van LLMs te verbeteren bij taken die zowel generatie als ophalen vereisen. Het voorgestelde kader overbrugt de traditioneel gescheiden trainingsbenaderingen voor generatie en ophalen door ophaaltokens autoregressief te genereren. Dit maakt het mogelijk dat een enkel LLM beide taken gelijktijdig afhandelt in een verenigde voorwaartse pas. We voeren experimenten uit op twee verschillende soorten samengestelde taken, RAG en Entiteitkoppeling, om de plugbaarheid, effectiviteit en efficiëntie van OneGen bij training en inferentie te valideren. Bovendien tonen onze resultaten aan dat het integreren van generatie en ophalen binnen dezelfde context de generatieve mogelijkheden van LLMs behoudt en tegelijkertijd de ophaalprestaties verbetert. Voor zover wij weten, is OneGen de eerste die LLMs in staat stelt om vectorophalen uit te voeren tijdens de generatie.
English
Despite the recent advancements in Large Language Models (LLMs), which have
significantly enhanced the generative capabilities for various NLP tasks, LLMs
still face limitations in directly handling retrieval tasks. However, many
practical applications demand the seamless integration of both retrieval and
generation. This paper introduces a novel and efficient One-pass Generation and
retrieval framework (OneGen), designed to improve LLMs' performance on tasks
that require both generation and retrieval. The proposed framework bridges the
traditionally separate training approaches for generation and retrieval by
incorporating retrieval tokens generated autoregressively. This enables a
single LLM to handle both tasks simultaneously in a unified forward pass. We
conduct experiments on two distinct types of composite tasks, RAG and Entity
Linking, to validate the pluggability, effectiveness, and efficiency of OneGen
in training and inference. Furthermore, our results show that integrating
generation and retrieval within the same context preserves the generative
capabilities of LLMs while improving retrieval performance. To the best of our
knowledge, OneGen is the first to enable LLMs to conduct vector retrieval
during the generation.Summary
AI-Generated Summary