OneGen : Génération et Récupération Unifiées en une Seule Passe Efficace pour les LLM

papers.abstract

Malgré les récents progrès des Grands Modèles de Langage (GML), qui ont considérablement amélioré les capacités génératives pour diverses tâches de TAL, les GML restent confrontés à des limitations dans le traitement direct des tâches de recherche. Cependant, de nombreuses applications pratiques exigent l'intégration transparente à la fois de la recherche et de la génération. Cet article présente un cadre novateur et efficace de génération et de recherche en une seule passe (OneGen), conçu pour améliorer les performances des GML sur des tâches nécessitant à la fois la génération et la recherche. Le cadre proposé comble les approches d'entraînement traditionnellement séparées pour la génération et la recherche en incorporant des jetons de recherche générés de manière autorégressive. Cela permet à un seul GML de gérer simultanément les deux tâches dans une seule passe unifiée. Nous menons des expériences sur deux types distincts de tâches composites, RAG et Liaison d'Entités, pour valider la plugabilité, l'efficacité et l'efficience de OneGen dans l'entraînement et l'inférence. De plus, nos résultats montrent qu'intégrer la génération et la recherche dans le même contexte préserve les capacités génératives des GML tout en améliorant les performances de recherche. À notre connaissance, OneGen est le premier à permettre aux GML d'effectuer une recherche vectorielle pendant la génération.

English

Despite the recent advancements in Large Language Models (LLMs), which have significantly enhanced the generative capabilities for various NLP tasks, LLMs still face limitations in directly handling retrieval tasks. However, many practical applications demand the seamless integration of both retrieval and generation. This paper introduces a novel and efficient One-pass Generation and retrieval framework (OneGen), designed to improve LLMs' performance on tasks that require both generation and retrieval. The proposed framework bridges the traditionally separate training approaches for generation and retrieval by incorporating retrieval tokens generated autoregressively. This enables a single LLM to handle both tasks simultaneously in a unified forward pass. We conduct experiments on two distinct types of composite tasks, RAG and Entity Linking, to validate the pluggability, effectiveness, and efficiency of OneGen in training and inference. Furthermore, our results show that integrating generation and retrieval within the same context preserves the generative capabilities of LLMs while improving retrieval performance. To the best of our knowledge, OneGen is the first to enable LLMs to conduct vector retrieval during the generation.

OneGen : Génération et Récupération Unifiées en une Seule Passe Efficace pour les LLM

OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

papers.abstract

Support