PERK: Ragionamento su Contesti Lunghi come Apprendimento Efficiente in Termini di Parametri al Momento del Test
PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning
July 8, 2025
Autori: Zeming Chen, Angelika Romanou, Gail Weiss, Antoine Bosselut
cs.AI
Abstract
Il ragionamento su contesti lunghi richiede l'identificazione accurata di informazioni rilevanti in input estesi e rumorosi. Ricerche precedenti dimostrano che l'utilizzo dell'apprendimento al momento del test per codificare direttamente il contesto nei parametri del modello può abilitare efficacemente il ragionamento su informazioni rumorose. Tuttavia, i metodi di meta-apprendimento per abilitare l'apprendimento al momento del test sono eccessivamente intensivi in termini di memoria, impedendo la loro applicazione a contesti lunghi. In questo lavoro, proponiamo PERK (Parameter Efficient Reasoning over Knowledge), un approccio scalabile per apprendere a codificare contesti di input lunghi utilizzando aggiornamenti del gradiente a un adattatore leggero al momento del test. Nello specifico, PERK impiega due cicli di ottimizzazione annidati in una fase di meta-addestramento. Il ciclo interno codifica rapidamente i contesti in un adattatore a basso rango (LoRA) che funge da modulo di memoria efficiente in termini di parametri per il modello base. Contemporaneamente, il ciclo esterno apprende a utilizzare l'adattatore aggiornato per richiamare e ragionare accuratamente sulle informazioni rilevanti dal contesto lungo codificato. Le nostre valutazioni su diversi compiti di ragionamento su contesti lunghi mostrano che PERK supera significativamente la baseline standard basata su prompt per contesti lunghi, ottenendo miglioramenti assoluti medi delle prestazioni fino al 90% per modelli più piccoli (GPT-2) e fino al 27% per il nostro modello più grande valutato, Qwen-2.5-0.5B. In generale, PERK è più robusto rispetto alla complessità del ragionamento, all'estrapolazione della lunghezza e alle posizioni delle informazioni rilevanti nei contesti. Infine, dimostriamo che, sebbene PERK sia intensivo in termini di memoria durante l'addestramento, scala in modo più efficiente al momento dell'inferenza rispetto all'inferenza basata su prompt per contesti lunghi.
English
Long-context reasoning requires accurately identifying relevant information
in extensive, noisy input contexts. Previous research shows that using
test-time learning to encode context directly into model parameters can
effectively enable reasoning over noisy information. However, meta-learning
methods for enabling test-time learning are prohibitively memory-intensive,
preventing their application to long context settings. In this work, we propose
PERK (Parameter Efficient Reasoning over Knowledge), a scalable approach for
learning to encode long input contexts using gradient updates to a lightweight
model adapter at test time. Specifically, PERK employs two nested optimization
loops in a meta-training phase. The inner loop rapidly encodes contexts into a
low-rank adapter (LoRA) that serves as a parameter-efficient memory module for
the base model. Concurrently, the outer loop learns to use the updated adapter
to accurately recall and reason over relevant information from the encoded long
context. Our evaluations on several long-context reasoning tasks show that PERK
significantly outperforms the standard prompt-based long-context baseline,
achieving average absolute performance gains of up to 90% for smaller models
(GPT-2) and up to 27% for our largest evaluated model, Qwen-2.5-0.5B. In
general, PERK is more robust to reasoning complexity, length extrapolation, and
the locations of relevant information in contexts. Finally, we show that while
PERK is memory-intensive during training, it scales more efficiently at
inference time than prompt-based long-context inference.