PERK : Raisonnement sur des contextes longs comme apprentissage efficace en paramètres au moment du test
PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning
July 8, 2025
papers.authors: Zeming Chen, Angelika Romanou, Gail Weiss, Antoine Bosselut
cs.AI
papers.abstract
Le raisonnement sur des contextes longs nécessite une identification précise des informations pertinentes dans des contextes d'entrée étendus et bruyants. Les recherches précédentes montrent que l'utilisation de l'apprentissage au moment du test pour encoder directement le contexte dans les paramètres du modèle peut permettre efficacement un raisonnement sur des informations bruyantes. Cependant, les méthodes de méta-apprentissage pour activer l'apprentissage au moment du test sont excessivement gourmandes en mémoire, empêchant leur application dans des contextes longs. Dans ce travail, nous proposons PERK (Parameter Efficient Reasoning over Knowledge), une approche évolutive pour apprendre à encoder des contextes d'entrée longs en utilisant des mises à jour de gradient sur un adaptateur de modèle léger au moment du test. Plus précisément, PERK emploie deux boucles d'optimisation imbriquées lors d'une phase de méta-entraînement. La boucle interne encode rapidement les contextes dans un adaptateur de faible rang (LoRA) qui sert de module de mémoire efficace en paramètres pour le modèle de base. Simultanément, la boucle externe apprend à utiliser l'adaptateur mis à jour pour rappeler et raisonner avec précision sur les informations pertinentes du contexte long encodé. Nos évaluations sur plusieurs tâches de raisonnement sur des contextes longs montrent que PERK surpasse significativement la base de référence standard basée sur des prompts pour les contextes longs, atteignant des gains de performance absolus moyens allant jusqu'à 90 % pour les modèles plus petits (GPT-2) et jusqu'à 27 % pour notre plus grand modèle évalué, Qwen-2.5-0.5B. En général, PERK est plus robuste face à la complexité du raisonnement, à l'extrapolation de longueur et à la localisation des informations pertinentes dans les contextes. Enfin, nous montrons que bien que PERK soit gourmand en mémoire pendant l'entraînement, il est plus efficace à l'inférence que l'inférence basée sur des prompts pour les contextes longs.
English
Long-context reasoning requires accurately identifying relevant information
in extensive, noisy input contexts. Previous research shows that using
test-time learning to encode context directly into model parameters can
effectively enable reasoning over noisy information. However, meta-learning
methods for enabling test-time learning are prohibitively memory-intensive,
preventing their application to long context settings. In this work, we propose
PERK (Parameter Efficient Reasoning over Knowledge), a scalable approach for
learning to encode long input contexts using gradient updates to a lightweight
model adapter at test time. Specifically, PERK employs two nested optimization
loops in a meta-training phase. The inner loop rapidly encodes contexts into a
low-rank adapter (LoRA) that serves as a parameter-efficient memory module for
the base model. Concurrently, the outer loop learns to use the updated adapter
to accurately recall and reason over relevant information from the encoded long
context. Our evaluations on several long-context reasoning tasks show that PERK
significantly outperforms the standard prompt-based long-context baseline,
achieving average absolute performance gains of up to 90% for smaller models
(GPT-2) and up to 27% for our largest evaluated model, Qwen-2.5-0.5B. In
general, PERK is more robust to reasoning complexity, length extrapolation, and
the locations of relevant information in contexts. Finally, we show that while
PERK is memory-intensive during training, it scales more efficiently at
inference time than prompt-based long-context inference.