Pesos Rápidos Reforçados com Predição de Próxima Sequência

Resumo

As arquiteturas de pesos rápidos oferecem uma alternativa promissora aos transformadores baseados em atenção para a modelagem de contexto longo, mantendo uma sobrecarga de memória constante independentemente do comprimento do contexto. No entanto, seu potencial é limitado pelo paradigma de treinamento de previsão do próximo token (NTP). O NTP otimiza previsões de token único e ignora a coerência semântica entre múltiplos tokens após um prefixo. Consequentemente, os modelos de pesos rápidos, que atualizam dinamicamente seus parâmetros para armazenar informações contextuais, aprendem representações subótimas que falham em capturar dependências de longo alcance. Apresentamos o REFINE (Pesos Rápidos Reforçados com Previsão de Próxima Sequência), uma estrutura de aprendizagem por reforço que treina modelos de pesos rápidos sob o objetivo de previsão da próxima sequência (NSP). O REFINE seleciona posições de token informativas com base na entropia da previsão, gera rollouts de múltiplos tokens, atribui recompensas autossupervisionadas a nível de sequência e otimiza o modelo com otimização de política relativa de grupo (GRPO). O REFINE é aplicável em todo o ciclo de vida de treinamento de modelos de linguagem pré-treinados: durante o treinamento, pós-treinamento e treinamento no momento do teste. Nossos experimentos com LaCT-760M e DeltaNet-1.3B demonstram que o REFINE supera consistentemente o ajuste fino supervisionado com NTP em tarefas de recuperação "agulha no palheiro", questionamento e resposta em contexto longo e diversas tarefas no LongBench. O REFINE fornece uma estrutura eficaz e versátil para melhorar a modelagem de contexto longo em arquiteturas de pesos rápidos.

English

Fast weight architectures offer a promising alternative to attention-based transformers for long-context modeling by maintaining constant memory overhead regardless of context length. However, their potential is limited by the next-token prediction (NTP) training paradigm. NTP optimizes single-token predictions and ignores semantic coherence across multiple tokens following a prefix. Consequently, fast weight models, which dynamically update their parameters to store contextual information, learn suboptimal representations that fail to capture long-range dependencies. We introduce REFINE (Reinforced Fast weIghts with Next sEquence prediction), a reinforcement learning framework that trains fast weight models under the next-sequence prediction (NSP) objective. REFINE selects informative token positions based on prediction entropy, generates multi-token rollouts, assigns self-supervised sequence-level rewards, and optimizes the model with group relative policy optimization (GRPO). REFINE is applicable throughout the training lifecycle of pre-trained language models: mid-training, post-training, and test-time training. Our experiments on LaCT-760M and DeltaNet-1.3B demonstrate that REFINE consistently outperforms supervised fine-tuning with NTP across needle-in-a-haystack retrieval, long-context question answering, and diverse tasks in LongBench. REFINE provides an effective and versatile framework for improving long-context modeling in fast weight architectures.

Pesos Rápidos Reforçados com Predição de Próxima Sequência

Reinforced Fast Weights with Next-Sequence Prediction

Resumo

Support