PERK: Langzeitkontext-Verarbeitung als parameter-effizientes Lernen zur Testzeit
PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning
July 8, 2025
papers.authors: Zeming Chen, Angelika Romanou, Gail Weiss, Antoine Bosselut
cs.AI
papers.abstract
Langzeitkontext-Reasoning erfordert die präzise Identifizierung relevanter Informationen in umfangreichen, verrauschten Eingabekontexten. Frühere Forschungen zeigen, dass die Verwendung von Testzeit-Lernen, um den Kontext direkt in die Modellparameter zu kodieren, effektiv das Reasoning über verrauschte Informationen ermöglichen kann. Allerdings sind Meta-Learning-Methoden, die Testzeit-Lernen ermöglichen, in Bezug auf den Speicherbedarf zu aufwendig, was ihre Anwendung in Langzeitkontext-Szenarien verhindert. In dieser Arbeit schlagen wir PERK (Parameter Efficient Reasoning over Knowledge) vor, einen skalierbaren Ansatz, um das Kodieren langer Eingabekontexte durch Gradienten-Updates eines leichtgewichtigen Modell-Adapters zur Testzeit zu erlernen. Konkret verwendet PERK zwei verschachtelte Optimierungsschleifen in einer Meta-Trainingsphase. Die innere Schleife kodiert Kontexte schnell in einen Low-Rank-Adapter (LoRA), der als speichereffizientes Modul für das Basismodell dient. Gleichzeitig lernt die äußere Schleife, den aktualisierten Adapter zu nutzen, um relevante Informationen aus dem kodierten Langzeitkontext präzise abzurufen und darüber zu schlussfolgern. Unsere Bewertungen mehrerer Langzeitkontext-Reasoning-Aufgaben zeigen, dass PERK den standardmäßigen Prompt-basierten Langzeitkontext-Baseline deutlich übertrifft, mit durchschnittlichen absoluten Leistungssteigerungen von bis zu 90 % für kleinere Modelle (GPT-2) und bis zu 27 % für unser größtes bewertetes Modell, Qwen-2.5-0.5B. Im Allgemeinen ist PERK robuster gegenüber Reasoning-Komplexität, Längenextrapolation und den Positionen relevanter Informationen in Kontexten. Schließlich zeigen wir, dass PERK zwar während des Trainings speicherintensiv ist, aber zur Inferenzzeit effizienter skaliert als Prompt-basierte Langzeitkontext-Inferenz.
English
Long-context reasoning requires accurately identifying relevant information
in extensive, noisy input contexts. Previous research shows that using
test-time learning to encode context directly into model parameters can
effectively enable reasoning over noisy information. However, meta-learning
methods for enabling test-time learning are prohibitively memory-intensive,
preventing their application to long context settings. In this work, we propose
PERK (Parameter Efficient Reasoning over Knowledge), a scalable approach for
learning to encode long input contexts using gradient updates to a lightweight
model adapter at test time. Specifically, PERK employs two nested optimization
loops in a meta-training phase. The inner loop rapidly encodes contexts into a
low-rank adapter (LoRA) that serves as a parameter-efficient memory module for
the base model. Concurrently, the outer loop learns to use the updated adapter
to accurately recall and reason over relevant information from the encoded long
context. Our evaluations on several long-context reasoning tasks show that PERK
significantly outperforms the standard prompt-based long-context baseline,
achieving average absolute performance gains of up to 90% for smaller models
(GPT-2) and up to 27% for our largest evaluated model, Qwen-2.5-0.5B. In
general, PERK is more robust to reasoning complexity, length extrapolation, and
the locations of relevant information in contexts. Finally, we show that while
PERK is memory-intensive during training, it scales more efficiently at
inference time than prompt-based long-context inference.