ChatPaper.aiChatPaper

OneGen: Generazione Unificata ed Efficient per Modelli Linguistici di Grande Dimensione in un Singolo Passaggio

OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

September 8, 2024
Autori: Jintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang
cs.AI

Abstract

Nonostante i recenti progressi nei Grandi Modelli Linguistici (LLM), che hanno notevolmente potenziato le capacità generative per varie attività di NLP, i LLM affrontano ancora limitazioni nel gestire direttamente compiti di recupero. Tuttavia, molte applicazioni pratiche richiedono l'integrazione fluida sia del recupero che della generazione. Questo articolo introduce un nuovo ed efficiente framework di Generazione e Recupero in un passaggio (OneGen), progettato per migliorare le prestazioni dei LLM in compiti che richiedono sia generazione che recupero. Il framework proposto collega gli approcci di addestramento tradizionalmente separati per generazione e recupero incorporando token di recupero generati in modo autoregressivo. Ciò consente a un singolo LLM di gestire entrambi i compiti contemporaneamente in un passaggio unificato in avanti. Conduciamo esperimenti su due tipi distinti di compiti compositi, RAG e Collegamento di Entità, per convalidare la plug-inabilità, l'efficacia e l'efficienza di OneGen nell'addestramento e nell'inferenza. Inoltre, i nostri risultati mostrano che integrare generazione e recupero nello stesso contesto preserva le capacità generative dei LLM migliorando le prestazioni di recupero. Per quanto ne sappiamo, OneGen è il primo a consentire ai LLM di effettuare il recupero vettoriale durante la generazione.
English
Despite the recent advancements in Large Language Models (LLMs), which have significantly enhanced the generative capabilities for various NLP tasks, LLMs still face limitations in directly handling retrieval tasks. However, many practical applications demand the seamless integration of both retrieval and generation. This paper introduces a novel and efficient One-pass Generation and retrieval framework (OneGen), designed to improve LLMs' performance on tasks that require both generation and retrieval. The proposed framework bridges the traditionally separate training approaches for generation and retrieval by incorporating retrieval tokens generated autoregressively. This enables a single LLM to handle both tasks simultaneously in a unified forward pass. We conduct experiments on two distinct types of composite tasks, RAG and Entity Linking, to validate the pluggability, effectiveness, and efficiency of OneGen in training and inference. Furthermore, our results show that integrating generation and retrieval within the same context preserves the generative capabilities of LLMs while improving retrieval performance. To the best of our knowledge, OneGen is the first to enable LLMs to conduct vector retrieval during the generation.

Summary

AI-Generated Summary

PDF333November 16, 2024