Scalatura dell'Inferenza per la Generazione Potenziata del Recupero a Lungo Contesto
Inference Scaling for Long-Context Retrieval Augmented Generation
October 6, 2024
Autori: Zhenrui Yue, Honglei Zhuang, Aijun Bai, Kai Hui, Rolf Jagerman, Hansi Zeng, Zhen Qin, Dong Wang, Xuanhui Wang, Michael Bendersky
cs.AI
Abstract
La scalabilità del calcolo inferenziale ha sbloccato il potenziale dei modelli linguistici di lungo contesto su larga scala (LLM) in diversi contesti. Per compiti ad alta intensità di conoscenza, il calcolo aumentato è spesso allocato per incorporare più conoscenze esterne. Tuttavia, senza utilizzare efficacemente tali conoscenze, l'espansione del contesto non sempre migliora le prestazioni. In questo lavoro, esaminiamo la scalabilità dell'inferenza per la generazione potenziata da recupero (RAG), esplorando strategie oltre all'aumento semplice della quantità di conoscenza. Ci concentriamo su due strategie di scalabilità dell'inferenza: apprendimento in contesto e sollecitazione iterativa. Queste strategie forniscono una maggiore flessibilità per scalare il calcolo al momento del test (ad esempio, aumentando i documenti recuperati o i passaggi di generazione), migliorando così la capacità dei LLM di acquisire ed utilizzare efficacemente informazioni contestuali. Affrontiamo due domande chiave: (1) Come beneficia il rendimento di RAG dalla scalabilità del calcolo inferenziale quando configurato ottimamente? (2) Possiamo prevedere l'allocazione ottimale del calcolo al momento del test per un determinato budget modellando la relazione tra il rendimento di RAG e i parametri di inferenza? Le nostre osservazioni rivelano che l'aumento del calcolo inferenziale porta a guadagni quasi lineari nel rendimento di RAG quando allocato in modo ottimale, una relazione che descriviamo come le leggi di scalabilità dell'inferenza per RAG. Sulla base di ciò, sviluppiamo ulteriormente il modello di allocazione del calcolo per stimare il rendimento di RAG attraverso diverse configurazioni inferenziali. Il modello prevede i parametri di inferenza ottimali in diverse condizioni di calcolo, che si allineano strettamente con i risultati sperimentali. Applicando queste configurazioni ottimali, dimostriamo che scalare il calcolo inferenziale sui LLM di lungo contesto porta a guadagni fino al 58,9% su set di dati di benchmark rispetto a RAG standard.
English
The scaling of inference computation has unlocked the potential of
long-context large language models (LLMs) across diverse settings. For
knowledge-intensive tasks, the increased compute is often allocated to
incorporate more external knowledge. However, without effectively utilizing
such knowledge, solely expanding context does not always enhance performance.
In this work, we investigate inference scaling for retrieval augmented
generation (RAG), exploring strategies beyond simply increasing the quantity of
knowledge. We focus on two inference scaling strategies: in-context learning
and iterative prompting. These strategies provide additional flexibility to
scale test-time computation (e.g., by increasing retrieved documents or
generation steps), thereby enhancing LLMs' ability to effectively acquire and
utilize contextual information. We address two key questions: (1) How does RAG
performance benefit from the scaling of inference computation when optimally
configured? (2) Can we predict the optimal test-time compute allocation for a
given budget by modeling the relationship between RAG performance and inference
parameters? Our observations reveal that increasing inference computation leads
to nearly linear gains in RAG performance when optimally allocated, a
relationship we describe as the inference scaling laws for RAG. Building on
this, we further develop the computation allocation model to estimate RAG
performance across different inference configurations. The model predicts
optimal inference parameters under various computation constraints, which align
closely with the experimental results. By applying these optimal
configurations, we demonstrate that scaling inference compute on long-context
LLMs achieves up to 58.9% gains on benchmark datasets compared to standard RAG.