PERK: Langzeitkontext-Verarbeitung als parameter-effizientes Lernen zur Testzeit

papers.abstract

Langzeitkontext-Reasoning erfordert die präzise Identifizierung relevanter Informationen in umfangreichen, verrauschten Eingabekontexten. Frühere Forschungen zeigen, dass die Verwendung von Testzeit-Lernen, um den Kontext direkt in die Modellparameter zu kodieren, effektiv das Reasoning über verrauschte Informationen ermöglichen kann. Allerdings sind Meta-Learning-Methoden, die Testzeit-Lernen ermöglichen, in Bezug auf den Speicherbedarf zu aufwendig, was ihre Anwendung in Langzeitkontext-Szenarien verhindert. In dieser Arbeit schlagen wir PERK (Parameter Efficient Reasoning over Knowledge) vor, einen skalierbaren Ansatz, um das Kodieren langer Eingabekontexte durch Gradienten-Updates eines leichtgewichtigen Modell-Adapters zur Testzeit zu erlernen. Konkret verwendet PERK zwei verschachtelte Optimierungsschleifen in einer Meta-Trainingsphase. Die innere Schleife kodiert Kontexte schnell in einen Low-Rank-Adapter (LoRA), der als speichereffizientes Modul für das Basismodell dient. Gleichzeitig lernt die äußere Schleife, den aktualisierten Adapter zu nutzen, um relevante Informationen aus dem kodierten Langzeitkontext präzise abzurufen und darüber zu schlussfolgern. Unsere Bewertungen mehrerer Langzeitkontext-Reasoning-Aufgaben zeigen, dass PERK den standardmäßigen Prompt-basierten Langzeitkontext-Baseline deutlich übertrifft, mit durchschnittlichen absoluten Leistungssteigerungen von bis zu 90 % für kleinere Modelle (GPT-2) und bis zu 27 % für unser größtes bewertetes Modell, Qwen-2.5-0.5B. Im Allgemeinen ist PERK robuster gegenüber Reasoning-Komplexität, Längenextrapolation und den Positionen relevanter Informationen in Kontexten. Schließlich zeigen wir, dass PERK zwar während des Trainings speicherintensiv ist, aber zur Inferenzzeit effizienter skaliert als Prompt-basierte Langzeitkontext-Inferenz.

English

Long-context reasoning requires accurately identifying relevant information in extensive, noisy input contexts. Previous research shows that using test-time learning to encode context directly into model parameters can effectively enable reasoning over noisy information. However, meta-learning methods for enabling test-time learning are prohibitively memory-intensive, preventing their application to long context settings. In this work, we propose PERK (Parameter Efficient Reasoning over Knowledge), a scalable approach for learning to encode long input contexts using gradient updates to a lightweight model adapter at test time. Specifically, PERK employs two nested optimization loops in a meta-training phase. The inner loop rapidly encodes contexts into a low-rank adapter (LoRA) that serves as a parameter-efficient memory module for the base model. Concurrently, the outer loop learns to use the updated adapter to accurately recall and reason over relevant information from the encoded long context. Our evaluations on several long-context reasoning tasks show that PERK significantly outperforms the standard prompt-based long-context baseline, achieving average absolute performance gains of up to 90% for smaller models (GPT-2) and up to 27% for our largest evaluated model, Qwen-2.5-0.5B. In general, PERK is more robust to reasoning complexity, length extrapolation, and the locations of relevant information in contexts. Finally, we show that while PERK is memory-intensive during training, it scales more efficiently at inference time than prompt-based long-context inference.

PERK: Langzeitkontext-Verarbeitung als parameter-effizientes Lernen zur Testzeit

PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning

papers.abstract

Support