ChatPaper.aiChatPaper

Schaalvergroting van inferentie voor generatie verrijkt met opvraging van lange context

Inference Scaling for Long-Context Retrieval Augmented Generation

October 6, 2024
Auteurs: Zhenrui Yue, Honglei Zhuang, Aijun Bai, Kai Hui, Rolf Jagerman, Hansi Zeng, Zhen Qin, Dong Wang, Xuanhui Wang, Michael Bendersky
cs.AI

Samenvatting

Het schalen van inferentieberekening heeft het potentieel van lang-contextuele grote taalmodellen (LLMs) ontsloten in uiteenlopende contexten. Voor kennisintensieve taken wordt de toegenomen rekenkracht vaak ingezet om meer externe kennis te integreren. Echter, zonder dergelijke kennis effectief te benutten, verbetert het louter vergroten van de context niet altijd de prestaties. In dit werk onderzoeken we inferentieschaling voor generatie met toegevoegde ophaling (RAG), waarbij we strategieën verkennen die verder gaan dan simpelweg het verhogen van de hoeveelheid kennis. We richten ons op twee inferentieschalingstrategieën: in-context leren en iteratieve aanwijzingen. Deze strategieën bieden extra flexibiliteit om de testtijd berekening te schalen (bijv. door het aantal opgehaalde documenten of generatiestappen te verhogen), waardoor de mogelijkheid van LLMs om contextuele informatie effectief te verwerven en te gebruiken wordt verbeterd. We behandelen twee belangrijke vragen: (1) Hoe profiteert RAG-prestatie van het schalen van inferentieberekening wanneer optimaal geconfigureerd? (2) Kunnen we de optimale toewijzing van testtijd berekening voorspellen voor een gegeven budget door het modelleren van de relatie tussen RAG-prestatie en inferentieparameters? Onze waarnemingen tonen aan dat het verhogen van inferentieberekening leidt tot bijna lineaire winsten in RAG-prestatie wanneer optimaal toegewezen, een relatie die we beschrijven als de inferentieschalingswetten voor RAG. Hierop voortbouwend ontwikkelen we het berekeningsallocatiemodel verder om RAG-prestatie te schatten over verschillende inferentieconfiguraties. Het model voorspelt optimale inferentieparameters onder verschillende berekeningsbeperkingen, die nauw aansluiten bij de experimentele resultaten. Door deze optimale configuraties toe te passen, tonen we aan dat het schalen van inferentieberekening op lange-context LLMs tot wel 58,9% winst behaalt op benchmark datasets in vergelijking met standaard RAG.
English
The scaling of inference computation has unlocked the potential of long-context large language models (LLMs) across diverse settings. For knowledge-intensive tasks, the increased compute is often allocated to incorporate more external knowledge. However, without effectively utilizing such knowledge, solely expanding context does not always enhance performance. In this work, we investigate inference scaling for retrieval augmented generation (RAG), exploring strategies beyond simply increasing the quantity of knowledge. We focus on two inference scaling strategies: in-context learning and iterative prompting. These strategies provide additional flexibility to scale test-time computation (e.g., by increasing retrieved documents or generation steps), thereby enhancing LLMs' ability to effectively acquire and utilize contextual information. We address two key questions: (1) How does RAG performance benefit from the scaling of inference computation when optimally configured? (2) Can we predict the optimal test-time compute allocation for a given budget by modeling the relationship between RAG performance and inference parameters? Our observations reveal that increasing inference computation leads to nearly linear gains in RAG performance when optimally allocated, a relationship we describe as the inference scaling laws for RAG. Building on this, we further develop the computation allocation model to estimate RAG performance across different inference configurations. The model predicts optimal inference parameters under various computation constraints, which align closely with the experimental results. By applying these optimal configurations, we demonstrate that scaling inference compute on long-context LLMs achieves up to 58.9% gains on benchmark datasets compared to standard RAG.

Summary

AI-Generated Summary

PDF92November 16, 2024