PERK : Raisonnement sur des contextes longs comme apprentissage efficace en paramètres au moment du test

papers.abstract

Le raisonnement sur des contextes longs nécessite une identification précise des informations pertinentes dans des contextes d'entrée étendus et bruyants. Les recherches précédentes montrent que l'utilisation de l'apprentissage au moment du test pour encoder directement le contexte dans les paramètres du modèle peut permettre efficacement un raisonnement sur des informations bruyantes. Cependant, les méthodes de méta-apprentissage pour activer l'apprentissage au moment du test sont excessivement gourmandes en mémoire, empêchant leur application dans des contextes longs. Dans ce travail, nous proposons PERK (Parameter Efficient Reasoning over Knowledge), une approche évolutive pour apprendre à encoder des contextes d'entrée longs en utilisant des mises à jour de gradient sur un adaptateur de modèle léger au moment du test. Plus précisément, PERK emploie deux boucles d'optimisation imbriquées lors d'une phase de méta-entraînement. La boucle interne encode rapidement les contextes dans un adaptateur de faible rang (LoRA) qui sert de module de mémoire efficace en paramètres pour le modèle de base. Simultanément, la boucle externe apprend à utiliser l'adaptateur mis à jour pour rappeler et raisonner avec précision sur les informations pertinentes du contexte long encodé. Nos évaluations sur plusieurs tâches de raisonnement sur des contextes longs montrent que PERK surpasse significativement la base de référence standard basée sur des prompts pour les contextes longs, atteignant des gains de performance absolus moyens allant jusqu'à 90 % pour les modèles plus petits (GPT-2) et jusqu'à 27 % pour notre plus grand modèle évalué, Qwen-2.5-0.5B. En général, PERK est plus robuste face à la complexité du raisonnement, à l'extrapolation de longueur et à la localisation des informations pertinentes dans les contextes. Enfin, nous montrons que bien que PERK soit gourmand en mémoire pendant l'entraînement, il est plus efficace à l'inférence que l'inférence basée sur des prompts pour les contextes longs.

English

Long-context reasoning requires accurately identifying relevant information in extensive, noisy input contexts. Previous research shows that using test-time learning to encode context directly into model parameters can effectively enable reasoning over noisy information. However, meta-learning methods for enabling test-time learning are prohibitively memory-intensive, preventing their application to long context settings. In this work, we propose PERK (Parameter Efficient Reasoning over Knowledge), a scalable approach for learning to encode long input contexts using gradient updates to a lightweight model adapter at test time. Specifically, PERK employs two nested optimization loops in a meta-training phase. The inner loop rapidly encodes contexts into a low-rank adapter (LoRA) that serves as a parameter-efficient memory module for the base model. Concurrently, the outer loop learns to use the updated adapter to accurately recall and reason over relevant information from the encoded long context. Our evaluations on several long-context reasoning tasks show that PERK significantly outperforms the standard prompt-based long-context baseline, achieving average absolute performance gains of up to 90% for smaller models (GPT-2) and up to 27% for our largest evaluated model, Qwen-2.5-0.5B. In general, PERK is more robust to reasoning complexity, length extrapolation, and the locations of relevant information in contexts. Finally, we show that while PERK is memory-intensive during training, it scales more efficiently at inference time than prompt-based long-context inference.

PERK : Raisonnement sur des contextes longs comme apprentissage efficace en paramètres au moment du test

PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning

papers.abstract

Support