Skalierung der Inferenz für die Generierung mit erweitertem Abruf von langem Kontext
Inference Scaling for Long-Context Retrieval Augmented Generation
October 6, 2024
Autoren: Zhenrui Yue, Honglei Zhuang, Aijun Bai, Kai Hui, Rolf Jagerman, Hansi Zeng, Zhen Qin, Dong Wang, Xuanhui Wang, Michael Bendersky
cs.AI
Zusammenfassung
Die Skalierung der Inferenzberechnung hat das Potenzial von langkontextigen großen Sprachmodellen (LLMs) in verschiedenen Umgebungen freigesetzt. Bei wissensintensiven Aufgaben wird die erhöhte Rechenleistung häufig dafür verwendet, mehr externes Wissen zu integrieren. Allerdings führt allein die Erweiterung des Kontexts ohne effektive Nutzung eines solchen Wissens nicht immer zu einer Leistungssteigerung. In dieser Arbeit untersuchen wir die Skalierung der Inferenz für die abrufgestützte Generierung (RAG) und erkunden Strategien, die über die bloße Erhöhung der Wissensmenge hinausgehen. Wir konzentrieren uns auf zwei Skalierungsstrategien der Inferenz: das Lernen im Kontext und die iterative Aufforderung. Diese Strategien bieten zusätzliche Flexibilität, um die Testzeitberechnung zu skalieren (z. B. durch Erhöhung der abgerufenen Dokumente oder der Generierungsschritte) und somit die Fähigkeit von LLMs zu verbessern, kontextbezogene Informationen effektiv zu erfassen und zu nutzen. Wir behandeln zwei zentrale Fragen: (1) Wie profitiert die Leistung von RAG von der Skalierung der Inferenzberechnung, wenn sie optimal konfiguriert ist? (2) Können wir die optimale Zuweisung von Testzeitberechnungen für ein bestimmtes Budget vorhersagen, indem wir die Beziehung zwischen der Leistung von RAG und den Inferenzparametern modellieren? Unsere Beobachtungen zeigen, dass eine Erhöhung der Inferenzberechnung zu nahezu linearen Gewinnen in der Leistung von RAG führt, wenn sie optimal zugewiesen wird, eine Beziehung, die wir als die Skalierungsgesetze der Inferenz für RAG beschreiben. Aufbauend darauf entwickeln wir das Berechnungsallokationsmodell weiter, um die Leistung von RAG für verschiedene Inferenzkonfigurationen abzuschätzen. Das Modell sagt optimale Inferenzparameter unter verschiedenen Berechnungsbeschränkungen vorher, die eng mit den experimentellen Ergebnissen übereinstimmen. Durch Anwendung dieser optimalen Konfigurationen zeigen wir, dass die Skalierung der Inferenzberechnung bei langkontextigen LLMs im Vergleich zu Standard-RAG auf Benchmark-Datensätzen bis zu 58,9 % Gewinne erzielt.
English
The scaling of inference computation has unlocked the potential of
long-context large language models (LLMs) across diverse settings. For
knowledge-intensive tasks, the increased compute is often allocated to
incorporate more external knowledge. However, without effectively utilizing
such knowledge, solely expanding context does not always enhance performance.
In this work, we investigate inference scaling for retrieval augmented
generation (RAG), exploring strategies beyond simply increasing the quantity of
knowledge. We focus on two inference scaling strategies: in-context learning
and iterative prompting. These strategies provide additional flexibility to
scale test-time computation (e.g., by increasing retrieved documents or
generation steps), thereby enhancing LLMs' ability to effectively acquire and
utilize contextual information. We address two key questions: (1) How does RAG
performance benefit from the scaling of inference computation when optimally
configured? (2) Can we predict the optimal test-time compute allocation for a
given budget by modeling the relationship between RAG performance and inference
parameters? Our observations reveal that increasing inference computation leads
to nearly linear gains in RAG performance when optimally allocated, a
relationship we describe as the inference scaling laws for RAG. Building on
this, we further develop the computation allocation model to estimate RAG
performance across different inference configurations. The model predicts
optimal inference parameters under various computation constraints, which align
closely with the experimental results. By applying these optimal
configurations, we demonstrate that scaling inference compute on long-context
LLMs achieves up to 58.9% gains on benchmark datasets compared to standard RAG.Summary
AI-Generated Summary