OneGen: Generación Unificada Eficiente en un Solo Paso y Recuperación para LLMs

Resumen

A pesar de los avances recientes en los Modelos de Lenguaje de Gran Tamaño (LLMs), que han mejorado significativamente las capacidades generativas para varias tareas de Procesamiento del Lenguaje Natural (NLP), los LLMs aún enfrentan limitaciones al manejar directamente tareas de recuperación. Sin embargo, muchas aplicaciones prácticas requieren la integración fluida de la recuperación y la generación. Este artículo presenta un marco novedoso y eficiente de Generación y Recuperación en un solo paso (OneGen), diseñado para mejorar el rendimiento de los LLMs en tareas que requieren tanto generación como recuperación. El marco propuesto une los enfoques de entrenamiento tradicionalmente separados para la generación y la recuperación al incorporar tokens de recuperación generados de forma autoregresiva. Esto permite que un solo LLM maneje ambas tareas simultáneamente en un solo pase unificado. Realizamos experimentos en dos tipos distintos de tareas compuestas, RAG y Vinculación de Entidades, para validar la capacidad de conexión, efectividad y eficiencia de OneGen en entrenamiento e inferencia. Además, nuestros resultados muestran que integrar generación y recuperación dentro del mismo contexto preserva las capacidades generativas de los LLMs al tiempo que mejora el rendimiento de la recuperación. Hasta donde sabemos, OneGen es el primero en permitir que los LLMs realicen recuperación vectorial durante la generación.

English

Despite the recent advancements in Large Language Models (LLMs), which have significantly enhanced the generative capabilities for various NLP tasks, LLMs still face limitations in directly handling retrieval tasks. However, many practical applications demand the seamless integration of both retrieval and generation. This paper introduces a novel and efficient One-pass Generation and retrieval framework (OneGen), designed to improve LLMs' performance on tasks that require both generation and retrieval. The proposed framework bridges the traditionally separate training approaches for generation and retrieval by incorporating retrieval tokens generated autoregressively. This enables a single LLM to handle both tasks simultaneously in a unified forward pass. We conduct experiments on two distinct types of composite tasks, RAG and Entity Linking, to validate the pluggability, effectiveness, and efficiency of OneGen in training and inference. Furthermore, our results show that integrating generation and retrieval within the same context preserves the generative capabilities of LLMs while improving retrieval performance. To the best of our knowledge, OneGen is the first to enable LLMs to conduct vector retrieval during the generation.

OneGen: Generación Unificada Eficiente en un Solo Paso y Recuperación para LLMs

OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

Resumen

Support