Leren redeneren onder off-policy begeleidingLearning to Reason under Off-Policy Guidance
Recente ontwikkelingen in grote redeneermodellen (LRMs) tonen aan dat geavanceerd gedrag zoals meerstaps redeneren en zelfreflectie kunnen ontstaan via reinforcement learning (RL) met eenvoudige, op regels gebaseerde beloningen. Bestaande zero-RL-benaderingen zijn echter inherent "on-policy", wat het leren beperkt tot de eigen uitvoer van een model en het verwerven van redeneervaardigheden buiten de initiële mogelijkheden belemmert. Wij introduceren LUFFY (Learning to Reason Under oFF-policY guidance), een raamwerk dat zero-RL versterkt met off-policy redeneersporen. LUFFY balanceert dynamisch imitatie en exploratie door off-policy demonstraties te combineren met on-policy rollouts tijdens de training. Opmerkelijk is dat we policy shaping voorstellen via gereguleerde importance sampling om oppervlakkige en rigide imitatie tijdens gemengd-policy training te voorkomen. LUFFY behaalt een gemiddelde winst van meer dan +7,0 over zes wiskundige benchmarks en een voordeel van meer dan +6,2 punten in taken buiten de distributie. Het overtreft ook aanzienlijk imitatiegebaseerde supervised fine-tuning (SFT), met name in generalisatie. Analyse toont aan dat LUFFY niet alleen effectief imiteert, maar ook verder gaat dan demonstraties, wat een schaalbare weg biedt om generaliseerbare redeneermodellen te trainen met off-policy begeleiding.