PERK: Raciocínio de Contexto Longo como Aprendizado Eficiente em Parâmetros durante o Teste
PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning
July 8, 2025
Autores: Zeming Chen, Angelika Romanou, Gail Weiss, Antoine Bosselut
cs.AI
Resumo
O raciocínio de contexto longo requer a identificação precisa de informações relevantes em contextos de entrada extensos e ruidosos. Pesquisas anteriores mostram que o uso de aprendizado no momento do teste para codificar o contexto diretamente nos parâmetros do modelo pode efetivamente habilitar o raciocínio sobre informações ruidosas. No entanto, métodos de meta-aprendizado para habilitar o aprendizado no momento do teste são proibitivamente intensivos em memória, impedindo sua aplicação em configurações de contexto longo. Neste trabalho, propomos o PERK (Parameter Efficient Reasoning over Knowledge), uma abordagem escalável para aprender a codificar contextos de entrada longos usando atualizações de gradiente em um adaptador leve no momento do teste. Especificamente, o PERK emprega dois loops de otimização aninhados em uma fase de meta-treinamento. O loop interno codifica rapidamente contextos em um adaptador de baixa classificação (LoRA) que serve como um módulo de memória eficiente em parâmetros para o modelo base. Simultaneamente, o loop externo aprende a usar o adaptador atualizado para recordar e raciocinar com precisão sobre informações relevantes do contexto longo codificado. Nossas avaliações em várias tarefas de raciocínio de contexto longo mostram que o PERK supera significativamente a linha de base padrão de contexto longo baseada em prompt, alcançando ganhos absolutos médios de desempenho de até 90% para modelos menores (GPT-2) e até 27% para nosso maior modelo avaliado, o Qwen-2.5-0.5B. Em geral, o PERK é mais robusto em relação à complexidade do raciocínio, extrapolação de comprimento e às localizações das informações relevantes nos contextos. Por fim, mostramos que, embora o PERK seja intensivo em memória durante o treinamento, ele escala de forma mais eficiente no momento da inferência do que a inferência de contexto longo baseada em prompt.
English
Long-context reasoning requires accurately identifying relevant information
in extensive, noisy input contexts. Previous research shows that using
test-time learning to encode context directly into model parameters can
effectively enable reasoning over noisy information. However, meta-learning
methods for enabling test-time learning are prohibitively memory-intensive,
preventing their application to long context settings. In this work, we propose
PERK (Parameter Efficient Reasoning over Knowledge), a scalable approach for
learning to encode long input contexts using gradient updates to a lightweight
model adapter at test time. Specifically, PERK employs two nested optimization
loops in a meta-training phase. The inner loop rapidly encodes contexts into a
low-rank adapter (LoRA) that serves as a parameter-efficient memory module for
the base model. Concurrently, the outer loop learns to use the updated adapter
to accurately recall and reason over relevant information from the encoded long
context. Our evaluations on several long-context reasoning tasks show that PERK
significantly outperforms the standard prompt-based long-context baseline,
achieving average absolute performance gains of up to 90% for smaller models
(GPT-2) and up to 27% for our largest evaluated model, Qwen-2.5-0.5B. In
general, PERK is more robust to reasoning complexity, length extrapolation, and
the locations of relevant information in contexts. Finally, we show that while
PERK is memory-intensive during training, it scales more efficiently at
inference time than prompt-based long-context inference.