PERK: Raciocínio de Contexto Longo como Aprendizado Eficiente em Parâmetros durante o Teste

Resumo

O raciocínio de contexto longo requer a identificação precisa de informações relevantes em contextos de entrada extensos e ruidosos. Pesquisas anteriores mostram que o uso de aprendizado no momento do teste para codificar o contexto diretamente nos parâmetros do modelo pode efetivamente habilitar o raciocínio sobre informações ruidosas. No entanto, métodos de meta-aprendizado para habilitar o aprendizado no momento do teste são proibitivamente intensivos em memória, impedindo sua aplicação em configurações de contexto longo. Neste trabalho, propomos o PERK (Parameter Efficient Reasoning over Knowledge), uma abordagem escalável para aprender a codificar contextos de entrada longos usando atualizações de gradiente em um adaptador leve no momento do teste. Especificamente, o PERK emprega dois loops de otimização aninhados em uma fase de meta-treinamento. O loop interno codifica rapidamente contextos em um adaptador de baixa classificação (LoRA) que serve como um módulo de memória eficiente em parâmetros para o modelo base. Simultaneamente, o loop externo aprende a usar o adaptador atualizado para recordar e raciocinar com precisão sobre informações relevantes do contexto longo codificado. Nossas avaliações em várias tarefas de raciocínio de contexto longo mostram que o PERK supera significativamente a linha de base padrão de contexto longo baseada em prompt, alcançando ganhos absolutos médios de desempenho de até 90% para modelos menores (GPT-2) e até 27% para nosso maior modelo avaliado, o Qwen-2.5-0.5B. Em geral, o PERK é mais robusto em relação à complexidade do raciocínio, extrapolação de comprimento e às localizações das informações relevantes nos contextos. Por fim, mostramos que, embora o PERK seja intensivo em memória durante o treinamento, ele escala de forma mais eficiente no momento da inferência do que a inferência de contexto longo baseada em prompt.

English

Long-context reasoning requires accurately identifying relevant information in extensive, noisy input contexts. Previous research shows that using test-time learning to encode context directly into model parameters can effectively enable reasoning over noisy information. However, meta-learning methods for enabling test-time learning are prohibitively memory-intensive, preventing their application to long context settings. In this work, we propose PERK (Parameter Efficient Reasoning over Knowledge), a scalable approach for learning to encode long input contexts using gradient updates to a lightweight model adapter at test time. Specifically, PERK employs two nested optimization loops in a meta-training phase. The inner loop rapidly encodes contexts into a low-rank adapter (LoRA) that serves as a parameter-efficient memory module for the base model. Concurrently, the outer loop learns to use the updated adapter to accurately recall and reason over relevant information from the encoded long context. Our evaluations on several long-context reasoning tasks show that PERK significantly outperforms the standard prompt-based long-context baseline, achieving average absolute performance gains of up to 90% for smaller models (GPT-2) and up to 27% for our largest evaluated model, Qwen-2.5-0.5B. In general, PERK is more robust to reasoning complexity, length extrapolation, and the locations of relevant information in contexts. Finally, we show that while PERK is memory-intensive during training, it scales more efficiently at inference time than prompt-based long-context inference.

PERK: Raciocínio de Contexto Longo como Aprendizado Eficiente em Parâmetros durante o Teste

PERK: Long-Context Reasoning as Parameter-Efficient Test-Time Learning

Resumo

Support