Versterkte Snelle Gewichten met Voorspelling van Volgende Reeksen

Samenvatting

Snelle-gewichten-architecturen bieden een veelbelovend alternatief voor op aandacht gebaseerde transformers voor modellering met lange context door een constant geheugengebruik te handhaven, ongeacht de contextlengte. Hun potentieel wordt echter beperkt door het next-token prediction (NTP) trainingsparadigma. NTP optimaliseert voorspellingen per enkel token en negeert semantische samenhang over meerdere tokens na een prefix. Hierdoor leren snelle-gewichten-modellen, die hun parameters dynamisch bijwerken om contextuele informatie op te slaan, suboptimale representaties aan die geen langere-afstandsafhankelijkheden vastleggen. Wij introduceren REFINE (Reinforced Fast weIghts with Next sEquence prediction), een raamwerk voor reinforcement learning dat snelle-gewichten-modellen traint met het next-sequence prediction (NSP) doel. REFINE selecteert informatieve tokenposities op basis van voorspellingsentropie, genereert multi-token rollouts, kent zelf-gesuperviseerde reeksniveau-beloningen toe en optimaliseert het model met group relative policy optimization (GRPO). REFINE is toepasbaar gedurende de volledige trainingslevenscyclus van vooraf getrainde taalmodellen: midden-in-de-training, na-de-training en training-tijdens-het-testen. Onze experimenten met LaCT-760M en DeltaNet-1.3B tonen aan dat REFINE consistent beter presteert dan supervised fine-tuning met NTP voor taken zoals needle-in-a-haystack retrieval, vraag-antwoordtaken met lange context en diverse taken in LongBench. REFINE biedt een effectief en veelzijdig raamwerk voor het verbeteren van lange-contextmodellering in snelle-gewichten-architecturen.

English

Fast weight architectures offer a promising alternative to attention-based transformers for long-context modeling by maintaining constant memory overhead regardless of context length. However, their potential is limited by the next-token prediction (NTP) training paradigm. NTP optimizes single-token predictions and ignores semantic coherence across multiple tokens following a prefix. Consequently, fast weight models, which dynamically update their parameters to store contextual information, learn suboptimal representations that fail to capture long-range dependencies. We introduce REFINE (Reinforced Fast weIghts with Next sEquence prediction), a reinforcement learning framework that trains fast weight models under the next-sequence prediction (NSP) objective. REFINE selects informative token positions based on prediction entropy, generates multi-token rollouts, assigns self-supervised sequence-level rewards, and optimizes the model with group relative policy optimization (GRPO). REFINE is applicable throughout the training lifecycle of pre-trained language models: mid-training, post-training, and test-time training. Our experiments on LaCT-760M and DeltaNet-1.3B demonstrate that REFINE consistently outperforms supervised fine-tuning with NTP across needle-in-a-haystack retrieval, long-context question answering, and diverse tasks in LongBench. REFINE provides an effective and versatile framework for improving long-context modeling in fast weight architectures.

Versterkte Snelle Gewichten met Voorspelling van Volgende Reeksen

Reinforced Fast Weights with Next-Sequence Prediction

Samenvatting

Support