SFT Onthoudt, RL Generaliseert: Een Vergelijkende Studie van Foundation Model Post-trainingSFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model
Post-training
Supervised fine-tuning (SFT) en reinforcement learning (RL) zijn veelgebruikte post-trainingstechnieken voor foundation-modellen. De rol die ze spelen bij het verbeteren van de generalisatiecapaciteiten van modellen blijft echter onduidelijk. Dit artikel onderzoekt het verschil tussen SFT en RL op het gebied van generalisatie en memorisatie, met de focus op tekstuele regelvarianten en visuele varianten. We introduceren GeneralPoints, een kaartspel voor rekenkundige redenering, en maken gebruik van V-IRL, een navigatieomgeving in de echte wereld, om te beoordelen hoe modellen die zijn getraind met SFT en RL generaliseren naar ongeziene varianten in zowel tekstuele als visuele domeinen. We tonen aan dat RL, vooral wanneer getraind met een op uitkomsten gebaseerde beloning, generaliseert over zowel op regels gebaseerde tekstuele als visuele varianten. SFT daarentegen heeft de neiging om trainingsgegevens te memoriseren en worstelt met generalisatie naar out-of-distribution scenario's. Verder onderzoek onthult dat RL de onderliggende visuele herkenningscapaciteiten van het model verbetert, wat bijdraagt aan de verbeterde generalisatie in het visuele domein. Ondanks de superieure generalisatie van RL tonen we aan dat SFT essentieel blijft voor effectieve RL-training; SFT stabiliseert het uitvoerformaat van het model, waardoor daaropvolgende RL zijn prestatiewinst kan behalen. Deze bevindingen tonen de mogelijkheden van RL aan om generaliseerbare kennis te verwerven in complexe, multimodale taken.