Scalatura dell'Inferenza per la Generazione Potenziata del Recupero a Lungo Contesto

Abstract

La scalabilità del calcolo inferenziale ha sbloccato il potenziale dei modelli linguistici di lungo contesto su larga scala (LLM) in diversi contesti. Per compiti ad alta intensità di conoscenza, il calcolo aumentato è spesso allocato per incorporare più conoscenze esterne. Tuttavia, senza utilizzare efficacemente tali conoscenze, l'espansione del contesto non sempre migliora le prestazioni. In questo lavoro, esaminiamo la scalabilità dell'inferenza per la generazione potenziata da recupero (RAG), esplorando strategie oltre all'aumento semplice della quantità di conoscenza. Ci concentriamo su due strategie di scalabilità dell'inferenza: apprendimento in contesto e sollecitazione iterativa. Queste strategie forniscono una maggiore flessibilità per scalare il calcolo al momento del test (ad esempio, aumentando i documenti recuperati o i passaggi di generazione), migliorando così la capacità dei LLM di acquisire ed utilizzare efficacemente informazioni contestuali. Affrontiamo due domande chiave: (1) Come beneficia il rendimento di RAG dalla scalabilità del calcolo inferenziale quando configurato ottimamente? (2) Possiamo prevedere l'allocazione ottimale del calcolo al momento del test per un determinato budget modellando la relazione tra il rendimento di RAG e i parametri di inferenza? Le nostre osservazioni rivelano che l'aumento del calcolo inferenziale porta a guadagni quasi lineari nel rendimento di RAG quando allocato in modo ottimale, una relazione che descriviamo come le leggi di scalabilità dell'inferenza per RAG. Sulla base di ciò, sviluppiamo ulteriormente il modello di allocazione del calcolo per stimare il rendimento di RAG attraverso diverse configurazioni inferenziali. Il modello prevede i parametri di inferenza ottimali in diverse condizioni di calcolo, che si allineano strettamente con i risultati sperimentali. Applicando queste configurazioni ottimali, dimostriamo che scalare il calcolo inferenziale sui LLM di lungo contesto porta a guadagni fino al 58,9% su set di dati di benchmark rispetto a RAG standard.

English

The scaling of inference computation has unlocked the potential of long-context large language models (LLMs) across diverse settings. For knowledge-intensive tasks, the increased compute is often allocated to incorporate more external knowledge. However, without effectively utilizing such knowledge, solely expanding context does not always enhance performance. In this work, we investigate inference scaling for retrieval augmented generation (RAG), exploring strategies beyond simply increasing the quantity of knowledge. We focus on two inference scaling strategies: in-context learning and iterative prompting. These strategies provide additional flexibility to scale test-time computation (e.g., by increasing retrieved documents or generation steps), thereby enhancing LLMs' ability to effectively acquire and utilize contextual information. We address two key questions: (1) How does RAG performance benefit from the scaling of inference computation when optimally configured? (2) Can we predict the optimal test-time compute allocation for a given budget by modeling the relationship between RAG performance and inference parameters? Our observations reveal that increasing inference computation leads to nearly linear gains in RAG performance when optimally allocated, a relationship we describe as the inference scaling laws for RAG. Building on this, we further develop the computation allocation model to estimate RAG performance across different inference configurations. The model predicts optimal inference parameters under various computation constraints, which align closely with the experimental results. By applying these optimal configurations, we demonstrate that scaling inference compute on long-context LLMs achieves up to 58.9% gains on benchmark datasets compared to standard RAG.

Scalatura dell'Inferenza per la Generazione Potenziata del Recupero a Lungo Contesto

Inference Scaling for Long-Context Retrieval Augmented Generation

Abstract

Support