Pesi Rapidi Rinforzati con Predizione della Sequenza Successiva

Abstract

Le architetture a pesi rapidi offrono un'alternativa promettente ai transformer basati su meccanismi di attenzione per la modellazione di contesti lunghi, mantenendo un overhead di memoria costante indipendentemente dalla lunghezza del contesto. Tuttavia, il loro potenziale è limitato dal paradigma di addestramento per predizione del token successivo (NTP). L'NTP ottimizza le predizioni di singoli token e ignora la coerenza semantica attraverso più token che seguono un prefisso. Di conseguenza, i modelli a pesi rapidi, che aggiornano dinamicamente i loro parametri per memorizzare informazioni contestuali, apprendono rappresentazioni subottimali che non riescono a catturare dipendenze a lungo raggio. Introduciamo REFINE (Reinforced Fast weIghts with Next sEquence prediction), un framework di apprendimento per rinforzo che addestra modelli a pesi rapidi con l'obiettivo di predizione della sequenza successiva (NSP). REFINE seleziona posizioni di token informative basandosi sull'entropia di predizione, genera rollout multi-token, assegna ricompense auto-supervisionate a livello di sequenza e ottimizza il modello con l'ottimizzazione delle politiche relative di gruppo (GRPO). REFINE è applicabile durante l'intero ciclo di vita dell'addestramento di modelli linguistici pre-addestrati: a metà addestramento, post-addestramento e durante l'addestramento al momento del test. I nostri esperimenti su LaCT-760M e DeltaNet-1.3B dimostrano che REFINE supera costantemente la messa a punto supervisionata con NTP in compiti di recupero "ago in un pagliaio", question answering su contesti lunghi e vari compiti in LongBench. REFINE fornisce un framework efficace e versatile per migliorare la modellazione di contesti lunghi nelle architetture a pesi rapidi.

English

Fast weight architectures offer a promising alternative to attention-based transformers for long-context modeling by maintaining constant memory overhead regardless of context length. However, their potential is limited by the next-token prediction (NTP) training paradigm. NTP optimizes single-token predictions and ignores semantic coherence across multiple tokens following a prefix. Consequently, fast weight models, which dynamically update their parameters to store contextual information, learn suboptimal representations that fail to capture long-range dependencies. We introduce REFINE (Reinforced Fast weIghts with Next sEquence prediction), a reinforcement learning framework that trains fast weight models under the next-sequence prediction (NSP) objective. REFINE selects informative token positions based on prediction entropy, generates multi-token rollouts, assigns self-supervised sequence-level rewards, and optimizes the model with group relative policy optimization (GRPO). REFINE is applicable throughout the training lifecycle of pre-trained language models: mid-training, post-training, and test-time training. Our experiments on LaCT-760M and DeltaNet-1.3B demonstrate that REFINE consistently outperforms supervised fine-tuning with NTP across needle-in-a-haystack retrieval, long-context question answering, and diverse tasks in LongBench. REFINE provides an effective and versatile framework for improving long-context modeling in fast weight architectures.

Pesi Rapidi Rinforzati con Predizione della Sequenza Successiva

Reinforced Fast Weights with Next-Sequence Prediction

Abstract

Support